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Resumo 



Esta dissertacao apresenta uma arquitectura que permite realizar a classificacao automatica 
de poemas e sugere as palavras finais dos versos. 

A classificacao dos poemas tern como base os conceitos da poetica portuguesa, que se 
dividem em conceitos estruturais e em regras de classificacao. A classificagao de poemas e 
determinista e nao necessita de exemplos de poemas para ser realizada. 

A sugestao das palavras finais dos versos e realizada com diferentes criterios de selecgao e 
ordenacao das palavras a sugerir. O primeiro criterio baseia-se nas restricoes estruturais dos 
poemas. O segundo criterio baseia-se na categoria gramatical das palavras a sugerir. O terceiro 
criterio baseia-se na utilizagao de modelos estatisticos de lingua obtidos a partir de corpora de 
texto. 

Sao classificados poemas realizados por criangas em idade escolar e tambem algumas 
estrofes de autores conhecidos, como Antonio Aleixo e Camoes. Sao comparados exemplos de 
sugestao das palavras finais dos versos, utilizando os varios criterios de selecgao e ordenacao 
enumerados. 

Das varias utilizacoes possiveis para o sistema, destaca-se a sua utilizagao como ferramenta 
didactica de apoio ao estudo de poesia nas escolas, como auxiliar de escrita de poesia e como 
auxiliar de leitura em voz alta de poemas a partir da informagao de classificagao respectiva. 

Palavras Chave 

Inteligencia Artificial, Processamento de Lingua Natural, Modelos Estatisticos de Lingua, 
Poesia, Rima. 



Abstract 



This dissertation presents a structure that allows automatic classification of poems and final 
word suggestion to the poem's verses. 

The Portuguese poetic concepts are the basis for poem classification, which are divided in 
structural concepts and classification rules. The poem classification is determinist and doesn't 
need any example of poems to be produced. 

The final word suggestions of the verses are made by different selection and order criteria of 
the words to suggest. The first criterion is based on the structural restrictions of the poems. The 
second criterion is based in grammatical category of the suggested words. The third criterion is 
based on statistics language models that can be obtained from a text corpus. 

Poems made by children in school age and some strophes made by known poets like 
Antonio Aleixo and Camoes are classified. Final word suggestions are generated and compared to 
the previously enumerated selection and order criteria. 

From the various possible utilizations for this system, it can be use as a didactic tool to the 
poetry study in schools, poetry help writer, and poetry reading out loud aid. 

Key Words 

Artificial Intelligence, Natural Language Processing, Statistic Language Models, Poetry, 
Rhyme. 



Vll 



Agradecimentos 



Agradeco ao meu orientador, Professor Nuno Mamede, pelas suas ideias e saber, pela sua 
orientacao e correccao, que permitiram a concretizacao desta dissertacao. 

Ao grupo de investigacao do INESC, L 2 F, do qual faco parte, agradeco todo o seu apoio e 
contributos, as suas ideias e opinioes, e os trabalhos facultados que integram esta dissertacao como 
sao exemplo o Leia, o Smorph, o Pasmo e a Susana. Em particular, ao Professor Luis Caldas, a 
Professora Isabel Trancoso, a Luisa Coheur, ao Hugo Meinedo, ao Fernando Batista e a Joana 
Paulo, agradeco todo o apoio e ajuda que permitiram quebrar a barreira inicial na utilizacao dos 
varios modulos de software, novos para mini, e pela disponibilidade em me ajudar a 
compreende-los. 

Agradeco a Professora Ana Paiva e aos alunos Ana Pacheco, Joana Paulo e Nuno Ferreira 
pela disponibilizacao do projecto de introducao aos agentes, que me deu algumas ideias no initio 
da realizacao deste trabalho. 

Aos meus colegas do ISEL Walter Vieira, Helder Pita, Luis Morgado, Paulo Trigo, Antonio 
Teofilo, e Porfirio Filipe, agradeco a sua paciencia para me ouvir e os seus contributos e opinioes. 
Ao meu amigo Porfirio Filipe, agradeco as acesas discussoes que transformaram algumas das 
ideias em concretizacoes. 

Agradeco a Rita, minha esposa, que me acompanha e ajuda em todos os dias da minha vida. 

A minha familia, que desde a infancia me acompanha e me incentiva na caminhada que me 
permitiu chegar aqui, agradeco o seu apoio incondicional. 

Por ultimo, mas nao menos importante, gostaria de agradecer ao PRODEP pela dispensa de 
servico concedida que muito contribuiu para que este trabalho chegasse a bom porto. 



INDICE 



RESUMO V 

Palavras Chave V 

ABSTRACT VII 

Key Words vn 

AGRADECIMENTOS IX 

INDICE XI 

LISTA DE FIGURAS XIII 

LISTA DE TABELAS XIV 

CONVENCOES TIPOGRAFICAS XV 

1INTRODUCAO 1 

1.1 MonvAgAo 1 

1.2 Enquadramento 3 

1.3 ORGANIZAgAO DA DlSSERTAQAO 7 

2 MODELACAO DE LINGUA 9 

2.1 iNTRODUgAO 9 

2.2 MODELOS FORMAIS DE LINGUA 10 

2.3 MODELOS ESTATISTICOS DE LINGUA 11 

2.4 A Ferramenta CMUSLM 14 

2.5 MODELOS Utilizados 15 

2.6 EXEMPLOS DO MODELO UTILIZADO 16 



3 CONCEITOS DA POETIC A PORTUGUESA 21 

3.1 iNTRODUgAO 21 

3.2 ACENTUAgAO DAS Palavras 21 

3.3 TRANSCRigAO FONETICA DAS PALAVRAS 22 

3.4 RlMA 23 

3.5 DlVISAO EM SlLABAS GRAMATICAIS 25 

3.6 DlVISAO EM SlLABAS METRIC AS 26 

3.7 Categoria Morfologica das Palavras 28 

3.8 conceitos estruturais 29 

3.9 Regras de ClassificacAo de Poemas 34 

3.10 Tipos de Poemas 38 

4 O SISTEMA LUCAS 41 

4.1 introducao 41 

4.2 Arquitectura do Sistema 42 

4.3 Processos de Coordenacao 47 

4.4 Arquitectura da Base de Dados 50 

4.5 Exemplos de ClassificacAo de Poemas 55 

4.6 Exemplos de SugestAo de Palavras 57 

5 IMPLEMENTACAO DO SISTEMA LUCAS 61 

5.1 Interface do Sistema 61 

5.2 AvALiAgAo do Classificador de Poemas 62 

5.3 AvALiAgAo do Preditor de Palavras 64 

6CONCLUSOES 69 

6.1 SiTUAgAo Actual 69 

6.2 Perspectivas Futuras 71 

REFERENCIAS 75 



LlSTA DE FlGURAS 



flgura 1 - uso da ferramenta cmuslm 15 

Figura 2 - Palavras Simples com Valor de Frequencia e Factor de backoff 17 

Figura 3 - Grupos de Duas Palavras com Valor de Frequencia e Factor de backoff 17 

Figura 4 - Grupos de Tres Palavras com Valor de Frequencia e Factor de Backoff 18 

Figura 5 - Grupos DE QUATRO palavras COM valor de frequencia 18 

Figura 6 - ClassmcacAo das palavras 22 

Figura 7 - Modulo externo de geracAo de classes 28 

figura 8 - funcionamento interno do modulo externo de geracao de classes 28 

Figura 9 - Estrutura do poema 31 

Figura 10 -Estrutura do verso 32 

Figura 1 1 - EsquematizacAo de rima 33 

Figura 12 -Arquitectura do Sistema Lc/Cas 43 

Figura 13 - Diagrama de estados do processo de classmcacAo 47 

Figura 14- Diagrama de actividade de iDENTMCAgAo de versos eestrofes 48 

Figura 15 - Diagrama de actividade de predicAo de palavras 49 

Figura 16-Modelodedadosdolexico 50 

Figura 17 -Interface do Sistema Lc/Cas 61 

Figura 18 - Grafico dos Tempos de Resposta de CLASSMCAgAo 64 



LlSTA DE TABELAS 



TABELA 1 - CONTAGEM DOS GRUPOS DE PALAVRAS DO MODELO DE LINGUA 16 

Tabela 2 - Alfabeto fonetico para o dialecto padrAo do portugues europeu SAM-PA 23 

TABELA 3 - EXEMPLO DE TRANSCRICOES foneticas 25 

Tabela 4 - Exemplo de divisoes silabicas 26 

Tabela 5 - Classificacao das estrofes quanto ao n° versos 34 

Tabela 6 - Classificacao dos versos quanto ao n° silabas 35 

Tabela 7 - Classificacao quanto a posicao relativa da rima e dos versos que enlaca 37 

Tabela 8 - Distribuicao do numero de transcricoes foneticas 5 1 

Tabela 9 - Contagem das palavras com igual terminacAo fonetica 52 

Tabela 10 -Contagem das palavras com igual numero de silabas 53 

Tabela 1 1 - Contagem das palavras com igual categoria 54 

Tabela 12 - Classificacao de quadras popularesde Antonio Aleixo 55 

Tabela 13 - Detalhe de classificacao da primeira quadra de Antonio Aleixo 56 

Tabela 14 - Classificacao de uma estrofe dos Lusiadas 56 

Tabela 15 - Classificacao de estrofes realizadas por criancas 57 

Tabela 16 -SugestAode palavras por frequencia de ocorrencia 58 

Tabela 17 - SugestAo de palavras por frequencia de ocorrencia de pares de palavras 58 

Tabela 18 -SugestAode palavras por rima 59 

Tabela 19 - SugestAo de palavras por numero de silabas 59 

Tabela 20 - SugestAo de palavras por rima e por numero de silabas 59 

Tabela 21 - SugestAo de palavras por rima e por numero de silabas com palavra anterior 59 

Tabela 22 - Comandos do sistema Lucas 62 

Tabela 23 - Tempos de Classificacao 64 



XIV 



CONVENgOES TipogrAficas 

As convencoes tipograficas utilizadas nesta tese foram as seguintes: 

i) usa-se a fonte "Times New Roman" para texto normal 

Exemplo: Esta proposta pretende abordar dois problemas distintos; 
ii) usam-se parentesis rectos [ ] para referencias bibliograficas 

Exemplo: [Araiijo & Mamede, 2002]; 
iii) usa-se texto em "Itdlico" entre aspas para frases citadas 

Exemplo: "Considera-se poema toda composicdo literdria de indole poetica"; 
iv) usa-se texto em Itdlico para siglas e abreviaturas 

Exemplo: sistema LuCas; 
v) usam-se plicas " para destacar pontos relevantes 

Exemplo: as palavras 'Vistas' e 'Largas'; 
vi) usa-se a fonte "courrier New" nos exemplos de codigo 

Exemplos: if (txtLinha . compareTo ( " " ) != 0) 
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1 iNTRODUgAO 



1.1 Motivagao 

Hoje em dia, e cada vez maior a utilizacao de ferramentas de apoio a escrita, como sao 
exemplo os correctores ortograficos, que ajudam na edicao e correccao de documentos. Estas 
ferramentas sao cada vez mais necessarias e a dependencia em relacao a elas torna-se cada vez 
maior. Cada vez menos se concebe que um documento seja enviado com erros ortograficos, pelo 
menos, aqueles que podem ser detectados por correctores ortograficos. 

A integracao destas ferramentas nos editores de texto, quer atraves de opcoes de menu quer 
atraves de botoes nas barras de ferramentas, torna a sua utilizacao bastante simples. As funcoes 
mais comuns que sao disponibilizadas nos editores mais comuns estao relacionadas com a 
ortografia e com a gramatica. Se se pretender funcoes especificas para tipos concretos de textos 
literarios, como sao exemplo os textos poeticos, ja as ferramentas mais comuns podem nao 
implementar essas funcoes. 

Os textos literarios podem ser divididos em textos em prosa e textos em verso. As aplicacoes 
de edicao de texto permitem editar ambos os tipos de texto devido a suas funcoes serem genericas 
e permitirem ser aplicadas aos diferentes tipos de texto. 

"A poesia distingue-se da prosa, nao so pelo sen aspecto formal, que facilmente 
identificamos, mas ainda e sobretudo pela cadencia e musicalidade, pela inspiracao ardente, pelo 
arrojo das imagens, pela beleza da expressao e pelo encanto secreto que devem existir em todos 
os versos dignos deste nome" [Areal, 2000]. Esta citagao, salienta as diferengas entre os textos em 
prosa e os textos em verso. 

Esta diferenga pode ser dividida em duas partes: por um lado a cadencia e musicalidade que 
estao relacionadas com a estrutura e a sonoridade das palavras que compoem os textos em verso; e 



por outro a inspiracao, as imagens e a beleza que estao relacionadas com factores de interpretacao 
mais subjectivos e que dependem da sensibilidade de cada pessoa. 

Da definicao apresentada pode-se concluir que, se se pretender um sistema automatico para 
analisar ou manipular textos em verso, tera que se ter em conta a cadencia e a musicalidade. 
Existem poucas ferramentas ou utilitarios que permitem manipular textos poeticos e reconhecer os 
requisitos especificos que sao caracteristicos da poesia. Esta escassez e agravada quando se 
pretende editar poesias escritas na lingua portuguesa. 

A edicao de textos poeticos pode ser simplificada com uma ferramenta que realize operacoes 
de analise e classificacao de poemas e, inclusivamente, permita realizar a sugestao de palavras. 
Esta ajuda e mais significativa nas palavras finais dos versos, nos poemas em que existe rima. Uma 
ferramenta com estas caracteristicas permite: 

• Apoiar as pessoas que iniciam o estudo de poesia; 

• Incentivar o gosto pela poesia; 

• Ajudar os poetas a realizar poesia; 

• Ajudar a compreender a estrutura dos poemas para melhorar a sua leitura em voz 
alta. 

Estes sao so alguns exemplos de possiveis utilizacoes para um sistema com as caracteristicas 
apresentadas, pois se se considerarem as aplicacoes liidicas entao e possfvel realizar jogos de 
palavras baseados em textos poeticos que permitem ensinar poesia de uma forma divertida. No 
entanto, nao foi este o ambito do trabalho. Outra razao que motivou a realizacao desta proposta foi 
o desejo de aprofundar o conhecimento na area do Processamento da Lingua Natural. 

Tendo como base as funcionalidades anteriormente descritas, e os cenarios de possiveis 
aplicacoes enumerados, foram definidos os seguintes objectivos principals: 

• Realizar a classificacao de diferentes tipos de poesia; 

• Apresentar de forma simples e clara o resultado da classificacao dos poemas; 

• Ter como base, para a classificacao de poemas, os conceitos da poetica portuguesa 
sem necessitar, a partida, de exemplos de poemas que condicionem a forma como e 
realizada a classificacao; 

• Sugerir as palavras finais dos versos; 

• Utilizar diferentes criterios de seleccao das palavras finais a sugerir. 

Estes objectivos podem ser agrupados sob a perspectiva de dois problemas que sao distintos. 
Por um lado, os tres primeiros objectivos relacionados com a classificacao de poemas e, por outro 



lado, os dois ultimos objectivos que estao relacionados com a sugestao de palavras. Embora 
possam ser analisados de forma distinta eles estao relacionados entre si. 

Para o caso da classificacao de poemas destaca-se, no 3° objectivo, o facto de se pretender 
que o resultado de classificacao nao seja influenciado por modelos de poemas previamente 
fornecidos ao sistema para dai inferir as regras de classificacao. Em vez disso foi realizada uma 
pesquisa bibliografica com o objectivo de encontrar as definicoes dos conceitos e regras da poetica 
portuguesa e a classificacao dos poemas foi implementada com base nessas definicoes. 

No caso da sugestao de palavras sao usadas tecnicas com diferentes criterios para 
seleccionar e ordenar as palavras a sugerir. Um dos criterios de seleccao de palavras tern em conta 
as restricoes estruturais do poema, e estas fazem parte da informacao de classificacao dos poemas, 
razao pela qual, os dois problemas nao sao independentes. 



1.2 Enquadramento 

Esta proposta enquadra-se na area do Processamento da Lingua Natural, pois sao utilizadas 
tecnicas de Processamento da Lingua Natural para realizar a classificacao dos poemas e a sugestao 
das palavras finais dos versos. 

No caso da classificacao de poemas, o resultado da pesquisa bibliografica efectuada 
permitiu implementar, a partir das definicoes de aspectos formais, nomeadamente os conceitos e as 
regras da poetica portuguesa, um conjunto de conceitos e regras para o sistema. Existem dois 
aspectos que sao fundamentals, um corresponde a rima das palavras finais dos versos e o outro ao 
niimero de silabas das palavras que formam os versos. Para contemplar estes dois aspectos e 
necessario um mecanismo de verificacao de rima das palavras e um mecanismo de decomposicao 
das palavras em silabas. 

Para o caso da sugestao das palavras finais dos versos foram implementadas varias hipoteses 
de criterios de escolha e ordenacao das palavras. A escolha das palavras a sugerir e condicionada 
pela estrutura do poema que esta a ser construido e, naturalmente, pela rima e pelo niimero de 
silabas dos versos e das palavras anteriores, caso existam. Para as palavras que se encontram 
nestas condicoes e realizada uma ordenacao que permite eleger as palavras que melhor se adequam 
a posicao do poema onde se pretende realizar a sugestao. 

No ambito deste trabalho, os criterios que foram escolhidos para realizar a filtragem das 
palavras, por um lado, tiram partido da analise sintactica das frases que constituem o poema com o 
objectivo de seleccionar as categorias possiveis para a palavra que deve ser sugerida, e por outro 



lado, sao usados modelos estatisticos de lingua, que permitem realizar uma ordenacao das palavras 
segundo um criterio baseado no seu valor estatistico de ocorrencia. 

Foram realizadas pesquisas na Internet relacionadas com poesia com o objectivo de 
encontrar sistemas que permitam lidar com poesia. Encontraram-se dois tipos de Sites. No primeiro 
tipo e possivel ler, comentar e discutir poesia de varios autores. O segundo tipo disponibiliza 
sistemas que permitem lidar com poesia, que vao desde os jogos de palavras ate a geracao 
automatica de poesia. 

As pesquisas de Sites efectuadas abrangeram nao so a lingua portuguesa como outras linguas 
e dos varios Sites encontrados, a maioria e sobretudo para a lingua inglesa. Alguns dos Sites 
encontrados para a lingua portuguesa sao em Portugues do Brasil. 

Comecando pelos Sites do primeiro tipo, para a lingua portuguesa destacam-se o [Projecto 
Vercial] e [Geracao Poesia]. Em ambos os Sites e possivel encontrar um vasto niimero de poemas 
de autores Portugueses como sao exemplo Luis de Camoes e Fernando Pessoa. 

O objectivo destes Sites e juntar textos literarios de uma grande diversidade de autores e 
divulgar a literatura para motivar as pessoas para a leitura. Alguns fazem ainda concursos de 
poesia onde existem processos de votacao dos poemas e permitem que os leitores facam 
comentarios sobre os poemas para serem partilhados por outras pessoas. 

Dos varios Sites estrangeiros encontrados destacam-se, para a lingua inglesa, dois Sites 
[Poetry Library] e [E-Poetry]. Em ambos e possivel encontrar muitos autores de diferentes 
nacionalidades e muitos poemas para ler. No primeiro Site sao disponibilizados mecanismos que 
permitem dar apoio aos poetas que desejam publicar os seus trabalhos. No segundo Site sao 
inclusivamente anunciados eventos com o objectivo de divulgar sistemas vocacionados para 
poesia. 

Passando agora para os sistemas que permitem a manipulacao de texto em que os poemas 
estao contemplados,. existe uma grande variedade de sistemas que vao desde os simples jogos de 
palavras, em que o objectivo e construir um poema, ate aos sistemas mais complexos que geram 
modelos de representacao de poesia e permitem gerar poemas automaticamente. 

Como exemplos destacam-se alguns dos varios sistemas encontrados, sendo a ordem de 
apresentacao dos mais simples para os mais complexos: 

• O Chaos Poetry Generator [Productions, 1997] consiste num gerador aleatorio de 
caracteres, onde e possivel controlar os grupos de caracteres gerados e, assim, criar 
poesia; 



• O Electric Poet [Frykholm, 1996] permite criar um trabalho literario a partir de um 
texto normal que serve de molde. Este sistema esta mais vocacionado para a poesia 
abstracta; 

• O Mc Poet [Westbury, 1997] e um conjunto de ferramentas para manipulacao de 
textos poeticos. Estas ferramentas tern um motor de geracao de texto baseado num 
sistema de regras que usa uma linguagem simples para permitir a configuracao por 
parte do utilizador; 

• O Dada Poem Generator [Chachanashvili, 1991] permite gerar automaticamente 
poemas sem sentido, tendo como base um dicionario e definicoes sintacticas; 

• O Ray Kurzweil Cybernetic Poet [Kurzweil, 1999] e, das ferramentas analisadas, a 
mais completa. Esta ferramenta faz a aquisicao de um conjunto de poemas e cria um 
modelo de lingua que representa esse mesmo conjunto de poemas. A partir do 
modelo criado permite gerar poemas. Para alem deste sistema, a empresa Kurzweil 
CyberArt Technologies dedica-se a criacao de sistemas capazes de produzir arte e 
inclusivamente disponibilizou um sistema de proteccao de ecra capaz de gerar 
pinturas originais, o AARON [Cohen, 2001]. 

Existem dicionarios de rima vocacionados para a realizacao de poemas, e existem tanto em 
formato impresso em papel como em formato electronico. A funcao de um dicionario de rimas e 
permitir procurar palavras que rimam e a sua utilidade e facilitar a procura de uma palavra para 
uma determinada posicao do poema. O utilizador apenas tern de fornecer as ultimas letras da 
palavra que pretende encontrar, e o sistema fornece as palavras do dicionario com as mesmas letras 
no fim da palavra. 

As versoes impressas em papel estao organizadas alfabeticamente pelas letras finais das 
palavras, ou seja, as palavras sao ordenadas alfabeticamente do fim da palavra para o inicio. Isto 
permite juntar as palavras com igual terminacao em termos das letra finais. Esta abordagem 
permite encontrar mais facilmente as palavras com igual terminacao e assim procurar palavras que 
rimem. No entanto, existem palavras que rimam e que nao tern exactamente a mesma terminacao 
em termos de letras. 

Os dicionarios em formato electronico podem ser usados de duas formas: ou atraves de Sites 
onde o utilizador usa as funcoes ai disponiveis; ou atraves de aplicacoes que funcionam de forma 
autonoma ou integradas num editor de texto. As funcoes disponibilizadas pelos dicionarios em 
formato electronico sao as mesmas funcoes possiveis de realizar na versao em papel, com a 
vantagem de quando estao integradas nas ferramentas de edicao de texto tornam a pesquisa das 
palavras mais simples e comoda. 



Um dos dicionarios de rimas em formato electronico que foi testado designa-se por 
Diciondrio de Rimas Poeticas [Pretor, 2000]. Este dicionario e apresentado como um "adminiculo 
ao poeta, sem nunca ter a pretensdo de substitui-lo, porque insubstituivel a criacao do espirito; 
apenas auxiliard na busca da rima mais apropriada dispensando a fastidiosa consulta a 
dicionarios convencionais" [Pretor, 2000]. Esta aplicacao e um exemplo do funcionamento que foi 
descrito para os dicionarios de rima em formato electronico na forma de aplicacao independente. A 
forma como sao realizadas as pesquisas das palavras e com base nas ultimas letras das palavras. 

O sistema apresentado nesta dissertacao tambem sugere as palavras finais dos versos sendo 
um dos criterios de seleccao a rima das palavras. Esta funcionalidade e equivalente a utilizacao de 
um dicionario de rimas anteriormente descrito. No entanto, a abordagem nao esta baseada na 
terminacao em termos de letras das palavras, mas sim na sonoridade das palavras. Assim, quando 
se pretende obter palavras que rimam com uma determinada palavra dada, obtem-se as palavras 
que em termos sonoros sao semelhantes a essa palavra (consonantes). 

A diferenca da abordagem seguida, baseada na sonoridade das palavras, tern a vantagem de, 
dada uma palavra, eliminar as palavras com igual terminacao em termos de letras mas que nao sao 
consonantes e juntar as palavras que tern terminacoes diferentes em termos de letras mas que sao 
consonantes. 

Neste trabalho, a forma como o utilizador indica a palavra para a qual pretende obter as 
palavras que rimam teve de ser diferente da dos sistemas analisados. Enquanto que nas aplicacoes 
testadas o utilizador fornece apenas as letras finais da palavra, no sistema implementado tem de ser 
fornecida a palavra completa. O problema reside no facto das letras finais sem o contexto da 
palavra nao determinarem quais as palavras que sao consonantes a esse grupo de letras. 

Esta abordagem facilita o mecanismo automatico de pesquisa de palavras que rimam, 
necessario na classificacao de poemas, pois e possivel saber se duas palavras rimam sem ter de 
decompor as palavras em letras para fornecer as respectivas terminacoes ao sistema. 

Neste trabalho, e tendo como referenda os objectivos ja enumerados, existe um conjunto de 
consideracoes que foram tidas em conta: 

• A classificacao de poemas deve ser possivel de realizar tendo apenas como base as 
definicoes dos conceitos e regras da poetica portuguesa; 

• A classificacao automatica de poemas deve ser o mais generica possivel por forma a 
cobrir o maior niimero de poemas; 

• A sugestao de palavras deve ser feita tendo em conta diferentes criterios de seleccao 
de palavras para permitir uma escolha mais flexivel. 



Assim, para se conseguirem atingir os objectivos enumerados, existe um conjunto de 
funcionalidades que sao necessarias: 

• Transcricao fonetica das palavras; 

• Divisao silabica das palavras; 

• Analise morfologica das palavras; 

• Analise sintactica das frases. 

Existem, no ambito do grupo de investigacao do L 2 F, ferramentas que implementam estas 
funcionalidades. Neste trabalho considera-se aplicacao externa aquela que implementa uma ou 
varias funcionalidades descritas. O sistema interage com estas aplicacoes de forma a adquirir a 
informacao necessaria quer para a classificacao de poemas quer para sugestao de palavras. 



1.3 Organizagao da Dissertagao 

No capitulo 2 comeca-se por fazer uma introducao a modelacao de lingua destacando alguns 
aspectos relevantes relacionados com a area da linguistica e da fala. Sao apresentados os modelos 
formais fazendo referenda a classificacao dos varios tipos de gramaticas segundo Chomsky. 
Seguidamente e feito um enquadramento dos modelos estatisticos de lingua que sao usados no 
contexto deste trabalho, como criterio de decisao na escolha das palavras. E ainda feita uma 
referenda a ferramenta que permite gerar os modelos de lingua e sao apresentados exemplos sobre 
o modelo de lingua utilizado no ambito deste trabalho. 

No capitulo 3 sao introduzidas quatro definicoes base: a acentuacao das palavras; a 
transcricao fonetica; a verificacao da rima e a divisao das palavras em silabicas gramaticais e em 
silabas metricas. Discute-se a utilizacao das categorias morfologicas das palavras utilizadas no 
processo de sugestao, como meio de seleccao das palavras segundo a sua categoria. Descrevem-se 
os conceitos estruturais da poetica portuguesa, que servem de base a classificacao de poemas, 
sendo indicadas as opcoes de implementacao que foram tomadas. Enumeram-se as regras de 
classificacao dos poemas e as respectivas restricoes de implementacao. E tambem apresentado o 
que se entende por tipos de poesia e sao dados varios exemplos de poesia aceites pelo sistema. 

No capitulo 4 sao descritos os aspectos que foram tidos em conta na construcao do 
demonstrador, sistema LuCas fazendo referenda a motivacao que levou a corrente implementacao. 
Descreve-se em detalhe a arquitectura do sistema e os varios modulos que o compoem e as suas 
respectivas interfaces. Descrevem-se os processos de coordenacao do sistema e apresentam-se em 
UML os diagramas de estado e de actividade correspondentes a forma como e realizada a 



classificacao dos poemas e a sugestao das palavras finais dos versos. Sao discutidas varias 
abordagens para seleccao e ordenacao das palavras a sugerir. Apresenta-se a arquitectura da base 
de dados do sistema e os seus detalhes de implementacao. Sao apresentados os componentes que 
armazenam a informacao obtida pelas aplicacoes externas e alguns resumos estatisticos de 
ocorrencia de terminacoes de palavras e de numero de silabas dos modelos estatisticos de lingua. 
Em seguida descrevem-se alguns exemplos que ilustram o funcionamento do sistema na 
classificacao de poemas e na sugestao das palavras finais dos versos. 

No capitulo 5 comeca-se por apresentar a interface do sistema LuCas implementado e o 
resumo dos comandos disponiveis na sua interface. Sao apresentados resultados de avaliacao do 
classificador de poemas em termos de tempos de resposta do sistema. Em seguida apresentam-se 
os resultados de avaliacao do processo de sugestao de palavras sendo feito uma comparacao entre 
as varias abordagens possiveis na sugestao das palavras, nomeadamente as restricoes estruturais do 
poema e a utilizacao dos modelos estatisticos de lingua. 

No capitulo 6 sao feitas as conclusoes finais desta dissertacao. Comeca-se por resumir o 
estado actual do sistema e as suas limitacoes. Sao focadas as perspectivas futuras e discutidas as 
vantagens e desvantagens da integracao do sistema numa plataforma Galaxy e ainda os possiveis 
caminhos a seguir por forma a melhorar quer aspectos de classificacao quer de predicao de 
palavras. 



2 MODELAgAO DE LINGUA 



2.1 Introdugao 

A modelacao de lingua e uma area de investigacao vasta e activa quer na comunidade da fala 
como na comunidade da linguistica. Estas duas comunidades tem abordagens distintas ao 
problema, que levam aos modelos probabilisticos de lingua e as teorias formais de lingua. 

Antes de Chomsky eram aplicadas aproximacoes distribuidas que usavam restricoes de 
contexto na modelacao de lingua [Hutchens, 1995]. Chomsky apresentou argumentos tais como 
metodos probabilisticos e introduziu uma aproximacao formal baseada em gramaticas bem 
definidas. 

Na area da linguistica foram desenvolvidas ferramentas para realizar tarefas como a analise 
sintactica e a analise semantica de frases. A complexidade associada a essas ferramentas, de um 
modo geral, e polinomial e esta dependente do comprimento das frases [Huang et al., 2001]. 

Existem dois aspectos fundamentals nos modelos formais de lingua: a gramatica e os 
algoritmos de analise. A gramatica e uma especificacao formal das estruturas possiveis para a 
lingua. As tecnicas de analise sao metodos para analisar frases e verificar se as estruturas sao 
compativeis com a gramatica. Este processo requer uma grande quantidade de textos analisados 
grama tic almente por processo manual para conseguir avaliar estas ferramentas, na ordem das 
dezenas ou mesmo centenas de milhao de palavras. 

Por outro lado na area da fala foram desenvolvidas ferramentas para prever a proxima 
palavra com base no que ja foi dito. Um dos objectivos associados a esta tecnica e melhorar os 
resultados do reconhecimento da fala. 

As relacoes de probabilidade entre sequencias de palavras podem ser modeladas a partir de 
corpus de texto com os chamados modelos probabilisticos de lingua, como sao exemplo os 
Ngramas, e em oposicao a utilizacao de extensas gramaticas formais. Tambem neste caso e 



importante existir essa grande quantidade de textos para que inclua o vocabulario que se pretende 
analisar. 

Nenhuma das aproximacoes e completamente bem sucedida pois, se por um lado, as 
gramaticas formais nao sao suficientemente robustas e necessitam de grande esforco para as 
adaptar de um dominio para outro, por outro lado, a falta de estrutura e compreensao dos modelos 
probabilisticos retiram-lhes a facilidade em escolher as palavras certas para guiar o 
reconhecimento da fala. 



2.2 Modelos Formais de Lingua 

Na teoria formal de lingua, a construcao da gramatica tern de considerar a generalidade, a 
selectividade e a compreensao. A generalidade esta associada ao conjunto de frases analisadas 
correctamente e a selectividade esta associada ao conjunto de frases que sao identificadas como 
problematicas. A compreensao esta associada a simplicidade da gramatica e e importante para 
permitir que a gramatica seja mantida. 

Segundo Chomsky [Chomsky, 1965], as gramaticas podem-se dividir por 4 tipos: as 
gramaticas de estrutura de frase, as gramaticas sensiveis ao contexto, as gramaticas independentes 
do contexto e as gramaticas regulares. Estas gramaticas estao estruturadas hierarquicamente pelos 
quatro tipos de automates que aceitam as linguagens produzidas pelos quatro tipos de gramaticas: 
sao respectivamente maquinas de Turing, automates lineares, automates Push Down e automates 
de estados finitos. 

As gramaticas de estrutura de frase apenas tern uma restricao na forma das suas regras 
(a— >P), a parte esquerda nunca pode ser nula. Este primeiro tipo caracteriza as linguagens 
recursivamente enumeradas, ou seja, aquelas que sao listadas por uma maquina de Turing. As 
gramaticas sensiveis ao contexto tern regras que sobrepoem um simbolo nao terminal num 
determinado contexto por um conjunto de simbolos nao nulos. As gramaticas independentes do 
contexto permitem que as regras sobreponham qualquer simbolo nao terminal por simbolos 
terminals ou nao terminals. As gramaticas regulares sao equivalentes as expressoes regulares, ou 
seja, uma linguagem regular e caracterizada por uma expressao regular ou por uma gramatica 
regular. As gramaticas regulares podem ser lineares a direita ou lineares a esquerda. As regras 
lineares a direita tern um unico simbolo nao terminal a esquerda e no maximo um simbolo nao 
terminal a direita. No exemplo(ex: A —* wB) em que w e um simbolo terminal e A e B sao 
simbolos nao terminals [Huang et al., 2001]. 
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Desde que foi introduzida a nocao de gramaticas independentes do contexto que surgiu uma 
vasta literatura sobre algoritmos de analise. Muitas delas com o objectivo de analisar linguagens de 
programacao que nao sao ambiguas, que nao e o caso da linguagem falada. 

Existem duas aproximacoes distintas, por um lado temos os algoritmos descendentes e por 
outro lado temos os algoritmos ascendentes. Os algoritmos descendentes comecam por um simbolo 
que representa a frase e vao substituindo os simbolos de diferentes formas ate formar uma arvore 
que representa a frase ou ate esgotar todas as hipoteses possiveis. Os algoritmos ascendentes 
comecam pelas palavras que compoem a frase e vao substituindo por simbolos e formando uma 
arvore ate ter apenas um unico simbolo que representa a frase. 

Early [Early, 1970] implementou um algoritmo descendente com reconhecimento 
ascendente que consegue ir buscar o que tem de melhor ambos os algoritmos ascendente e 
descendente. 



2.3 Modelos Estatisticos de Lingua 

Os modelos estatisticos de lingua estimam a distribuicao probabilistica de varios fenomenos 
de lingua natural [Rosenfeld, 2000]. Ironicamente, o sucesso das tecnicas de modelos estatisticos 
de lingua usam muito pouco do que a linguagem e. Os modelos de lingua de Ngramas nao tiram 
partido do facto de se estar a modelar uma Lingua Natural. Poderia ser uma sequencia de simbolos 
arbitraria sem uma estrutura profunda, intencao ou pensamento por tras [Rosenfeld, 2000]. 

Os modelos de lingua, necessarios a sugestao de palavras, podem ser inferidos a partir de um 
corpus de texto, e sem necessitar de qualquer outra informacao adicional a partida, podendo depois 
ser usados por um algoritmo na predicao de palavras [Hutchens, 1995]. 

O objectivo principal dos modelos probabilisticos de lingua e providenciar informacao 
estatistica para que as sequencias de palavras mais provaveis tenham maior probabilidade do que 
as menos provaveis. Deste modo e possivel melhorar a precisao e reduzir o espaco de procura no 
reconhecimento da fala [Huang et al., 2001]. 

Neste trabalho, a utilizacao dos modelos de lingua permite seleccionar, para uma 
determinada posicao do texto, um conjunto de palavras e estabelecer uma ordem nas palavras, 
tendo como criterio de ordenacao a frequencia de ocorrencia. Para cada um dos modelos de 
Ngramas, seleccionam-se sempre as palavras com maior frequencia. 
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Se se considerar em W sequencias de palavras entao pode-se assumir que nos modelos de 
lingua de Ngramas, P(W) reflecte a distribuicao de probabilidade de ocorrencia das sequencias de 
palavras W. 

Por exemplo, num modelo que descreve a lingua falada, pode-se ter P(ola)=0.01, pois 
provavelmente uma em cada cem palavras e 'ola'. Por outro lado tambem se pode encontrar 
P(fazer gato quadro)=0, pois e extremamente improvavel alguem proferir esta frase. 

P(W) pode ser decomposto em: 

P(W)=P( Wl ,w 2 ,..., w.) 

= P(w 1 )P(w 2 I w 1 )P(w 3 lw 1 ,w 2 )...P(w n lw,,w 2 ,...,w n _ 1 ) 



= J~[ P ( W . IW l' W 2'-' W i-l) 



!=1 

Onde P(Wj I w p w 2 ,..., w t j) e a probabilidade de ocorrencia w : dada a sequencia de 
palavras w,, w 2 , ..., w ; A aparecer previamente. 

Como se pode constatar, as palavras anteriores condicionam as palavras que sao sugeridas e 
tambem o niimero de palavras anteriores existentes condicionam quais os modelos de Ngramas a 

utilizar. Para um vocabulario de dimensao v existem v'~ diferentes hipoteses e para especificar 
completamente P(w t I w 1; w 2 ,.„, w i4 ), tern de ser estimados v 1 valores [Huang et al., 2001]. 
Mesmo para valores moderados de i e impossfvel estimar todos os valores pois a maior parte deles 
so ocorrem uma vez ou muito poucas vezes. A solucao pratica e restringir o niimero de palavras 
anteriores, levando aos modelos de Ngramas: 

• Os modelos de lingua unigramas P(W;) apenas consideram a frequencia de 
ocorrencia da palavra sem considerar as palavras anteriores; 

• Os modelos de lingua bigramas P( w ; I w ;1 ) consideram apenas a palavra anterior 
no calculo da frequencia de ocorrencia; 

• Os modelos de lingua trigramas P(w ; lw i2 , w ;i ), consideram as duas palavras 
anteriores no calculo da frequencia de ocorrencia. 

Desta forma, os modelos estatisticos de lingua, atraves dos Ngramas, permitem representar 
um determinado corpus de texto e realizar a sugestao das palavras com base na frequencia de 
ocorrencia. 

Um dos problemas existentes nos modelos de Ngramas deve-se ao facto de, mesmo 
utilizando corpus de treino grandes, existirem Ngramas que sao validos em termos de linguagem 
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mas nao existem no corpus de treino e por isso a sua ocorrencia e nula. Este problema e tanto 
maior quanto maior for o niimero de palavras anterior que se quiser considerar. 

Existem tecnicas que permitem lidar com este problema e permitem atribuir frequencias 
diferentes de aos Ngramas que nao registam ocorrencias. Esta tecnica e designada por 
alisamento. 

O primeiro metodo para realizar o alisamento consiste em considerar que todos os grupos de 
palavras tern pelo menos uma ocorrencia, incluindo aqueles que nao ocorrem nenhuma vez. Este 
metodo designa-se por alisamento adicionar um. 

Como exemplo, e considerando para o caso dos bigramas, em primeiro lugar e realizada 
uma matriz de ocorrencia em que se considera que todos os pares de palavras vao ocorrer pelo 
menos uma vez. Depois actualizam-se os pares de ocorrencias com os valores de ocorrencia que 
existem no corpus. Seguidamente adicionam-se 1 a todos os valores de ocorrencia da matriz, 
incluindo os nulos. Depois normalizam-se os valores, actualizando o niimero total de ocorrencias 
com os valores acrescentados. 

Este metodo, no entanto, nao e muito utilizado pois nao apresenta bons resultados em termos 
de utilizacao e pode provocar uma grande diferenca em relacao as frequencias originais quando se 
realiza o alisamento. O principal problema reside no facto de adicionar o valor 1 as contagens. Se 
fosse adicionado um valor mais pequeno, o problema era atenuado. 

O segundo metodo de alisamento designa-se por desconto Witten-Bell [Witten, 1991]. Este 
metodo, embora mais complexo que o anterior, baseia-se no conceito de modelar a primeira 
ocorrencia dos Ngramas para estimar a ocorrencia dos que ainda nao ocorreram. 

Assim a probabilidade de ocorrencia de um ngrama que ainda nao ocorreu e modelada com 
a ajuda dos Ngramas que apenas ocorreram uma vez. Se se considerar o exemplo dos bigramas, o 
valor de estimacao de ocorrencia dos bigramas que nao tern nenhuma ocorrencia e dado pela 
contagem dos bigramas que ocorreram apenas uma vez. O valor final e normalizado com o niimero 
de bigramas observados e dividido por todos os possiveis bigramas que nao tern ocorrencia. 

Este metodo faz com que o calculo da probabilidade de ocorrencia seja dependente do 
historico de ocorrencia de palavras. Tambem as palavras que ocorrem em menos combinacoes de 
bigramas tendem a ter menos bigramas nao vistos que as que entram em mais combinacoes de 
bigramas diferentes. 

O terceiro metodo de alisamento designa-se por desconto Good-Turing [Good, 1953]. Este 
metodo, embora mais complexo que o anterior, tem como ideia principal a de voltar a calcular as 
probabilidades de ocorrencia para atribuir valores aos Ngramas que sao nulos e aos que tem 
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valores muito baixos com base no niimero de Ngramas com elevados valores de probabilidade de 
ocorrencia. 

A ideia e calcular as frequencias de ocorrencia dos valores de ocorrencia c, ou seja, 
calcula-se para c=l quantos tipos de Ngramas apenas ocorrem uma vez. Para c=i calcula-se 
quantos Ngramas diferentes tern esse valor de ocorrencia i. Constroi-se assim uma tabela de 
frequencias de ocorrencia em que para c=0 tem-se a contagem de Ngramas com frequencia de 
ocorrencia nula. Como se espera, quanto menor e o c maior e a frequencia de ocorrencia. 

Se se considerar para o exemplo de bigramas, a contagem revista dos bigramas que nunca 
ocorreram e calculado dividindo o niimero de bigramas que ocorreram uma vez pelo niimero total 
de bigramas que nunca ocorreram. 

Na pratica, este desconto nao e aplicado para todos os valores de c. As frequencias maiores, 
onde ok (em que k representa o valor a partir do qual nao sao recalculados) sao assumidas como 
fiaveis. Katz [Katz, 1987] sugere que k tome o valor 5. 

Os metodos de desconto vistos, permitem lidar com os Ngramas que nao tern nenhuma 
ocorrencia no modelo. Existem no entanto outros processos que permitem lidar com o facto de nao 
existir um ngrama especifico e calcular a sua frequencia de ocorrencia com base nos Ngramas de 
ordem n-1. Se se considerar o caso dos trigramas, o calculo e efectuado com base nos bigramas. 
Para o caso de existir um bigrama que nao tenha ocorrencias, entao a sua frequencia de ocorrencia 
e baseada na frequencia de ocorrencias das palavras simples. Existem duas formas de aplicar este 
processo por interpolacao apagada ou backoff. 

O quarto metodo de alisamento, designado por backoff, e um metodo nao linear introduzido 
por Katz em 1987 [Katz, 1987]. Para salientar a diferenca deste processo, e se se considerar o 
exemplo em que se tem trigramas com contagem diferente de 0, entao apenas se tern em 
consideracao a frequencia de ocorrencia dos trigramas. Se se pretender calcular a ocorrencia de 
um trigrama que nao tem nenhuma ocorrencia consideram-se os bigramas. Se se pretender calcular 
um bigrama que nao tenha ocorrencia consideram-se as ocorrencias das palavras simples. 



2.4 A Ferramenta CMUSLM 

No ambito deste trabalho, o modelo de lingua utilizado foi gerado utilizando a ferramenta de 
dominio publico Carnegie Mellon University Statistical Language Modeling [Clarkson & 
Rosenfeld, 1997] que abreviadamente se designa por CMUSLM ou CMU. 
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Esta ferramenta consiste num conjunto de programas para facilitar a construcao e teste dos 
modelos de lingua de Ngramas [Clarkson & Rosenfeld, 1997]. A Figura 1 mostra, atraves de um 
diagrama de actividade descrito na linguagem UML, a forma de utilizacao desta ferramenta. Este 
diagrama corresponde a uma simplificacao e adaptacao da figura original de [Clarkson & 
Rosenfeld, 1997]. 
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Figura 1 - Uso da ferramenta CMUSLM 

Para criar os modelos estatisticos de lingua sao necessarios tres passos. No primeiro passo e 
gerada, a partir do corpus de texto, a estatistica de ocorrencia das palavras. Este passo tern como 
resultado um ficheiro com todas as diferentes palavras contidas no corpus de texto e a respectiva 
frequencia de ocorrencia. 

No segundo passo e gerado, a partir do ficheiro obtido no primeiro passo, o vocabulario do 
corpus de texto. O vocabulario corresponde as palavras do corpus de texto ordenadas por ordem 
alfabetica. Neste segundo passo e ainda possivel definir o limite maximo de palavras, excluindo 
assim as palavras menos frequentes. 

No terceiro passo sao construidos os modelos de Ngramas. Os ficheiros de entrada 
necessarios para gerar os modelos sao o corpus de texto inicial e o vocabulario obtido no segundo 
passo. Os modelos de Ngramas gerados sao compostos por tres ficheiros, em que cada um 
representa um grupo de n palavras e a respectiva probabilidade de ocorrencia. Para n igual a um 
corresponde a frequencia de ocorrencia das palavras, para n igual a dois corresponde a frequencia 
de ocorrencia dos pares de palavras e para n igual a tres corresponde a frequencia de ocorrencia 
dos trios de palavras. 



2.5 Modelos Utilizados 

As primeiras experiencias foram realizadas com um modelo de lingua composto por 
frequencias de palavras simples e frequencias de pares de palavras. Este modelo de lingua e 
composto por 65.817 palavras e respectivas frequencias e por 80.847 pares de palavras e 
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respectivas frequencias. Este modelo de lingua faz parte da aplicacao Eugenio [Garcia & Oliveira, 
2001] que realiza a predicao de palavras e foi concebido para acelerar o processo de escrita a 
pessoas com limitacoes motoras. 

Depois de varias experiencias verificou-se que a maioria dos poemas continha palavras que 
nao estavam contempladas no modelo de lingua. Assim foram realizadas experiencias com um 
modelo com maior numero de palavras e com frequencias de ocorrencia para grupos de tres e 
quatro palavras. 

Este modelo de lingua, com a probabilidade de ocorrencia das palavras, foi obtido a partir de 
uma interpolacao de dois modelos de lingua, um deles obtido com base em jornais recolhidos da 
Web e o outro obtido com base nos textos das transcribes disponiveis dos programas noticiosos 
de televisao. 

Os valores de probabilidade de ocorrencia das palavras, permitem ordenar as palavras por 
ordem decrescente de probabilidade. A Tabela 1 mostra o niimero de ocorrencias de cada um dos 
grupos de palavras do modelo. 



Grupos 


Numero 


1 Palavra 


57.564 


2 Palavras 


5.724.469 


3 Palavras 


11.095.964 


4 Palavras 


6.731.820 



Tabela 1 - Contagem dos grupos de palavras do modelo de lingua. 

No modelo apresentado, sao usadas 57.564 palavras diferentes. Se se contabilizarem todos 
os grupos de palavras obtem-se um total de 23.609.817 ocorrencias. Para manipular este numero de 
palavras e uniformizar o modo de acesso aos modelos foi utilizado um motor de base de dados para 
armazenar esta informacao. 

Com este modelo, o numero de palavras que nao existiam no modelo diminui bastante mas, 
mesmo assim existiam palavras que nao estavam no modelo. Para estes casos, a frequencia de 
ocorrencia destas palavras e calculada com o metodo backoff. 



2.6 Exemplos do Modelo Utilizado 

O modelo de lingua utilizado esta organizado da seguinte forma: 

• Palavras simples com valor de frequencia e factor de backoff; 
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• Grupos de duas palavras com valor de frequencia e factor de backoff; 

• Grupos de tres palavras com valor de frequencia e factor de backoff; 

• Grupos de quatro palavras com valor de frequencia. 

Para cada um dos casos foi tirada uma amostra de 5 linhas da tabela correspondente e cada 
uma das tabelas mostra um grupo de palavras, simples, de duas palavras, de tres palavras e de 
quatro palavras. 

Em todos os casos, o numero que aparece em primeiro lugar corresponde a frequencia de 
ocorrencia da linha correspondente no formato de logaritmo na base 10. 

Nos casos das palavras simples, grupos de dois e de tres, tambem aparece o factor de 
backoff que serve para calcular a frequencia quando um Ngrama nao existe. 

Os grupos de quatro palavras nao apresentam valores de backoff porque nao foram usados 
modelos com grupos de 5 palavras. 



Frequencia 


Palavra 


Factor backoff 








-6,48570900000 


abadessa 


-0,10814660000 


-5,94152900000 


abadia 


-0,29602020000 


-6,48570900000 


abadias 


-0,14308460000 


-6,13287000000 


abafada 


-0,34335430000 


-5,91964100000 


abafado 


-0,31932020000 









Figura 2 - Palavras Simples com Valor de Frequencia e Factor de backoff 



Frequencia 


Palavral 


Palavra2 


Factor backoff 










-6,71511600000 


a 


abade 


0,00000000000 


-5,88075100000 


a 


abadessa 


-0,01240277000 


-5,38470200000 


a 


abadia 


-0,12448850000 


-5,47629800000 


a 


abafar 


-0,04290840000 


-5,23826200000 


a 


abaixo 


0,00000000000 











Figura 3 - Grupos de Duas Palavras com Valor de Frequencia e Factor de backoff 
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Frequencia 


Palavral 


Palavra2 


Palavra3 


Factor backoff 












-2,66555000000 


a 


a 


cidade 


-0,08316695000 


-2,13003300000 


a 


a 


cinco 


-0,07574962000 


-3,25000700000 


a 


a 


cinquenta 


-0,35222700000 


-3,39421900000 


a 


a 


classificacao 


0,00000000000 


-3,37385500000 


a 


a 


colocar 


0,00000000000 












Figura 4 - Grupos de Tres Palavras com Valor de Frequencia e Factor de Backoff 


Frequencia 


Palavral 


Palavra2 


Palavra3 


Palavra4 












-2,57598900000 


a 


a 


bola 


enquanto 


-2,48734000000 


a 


a 


bola 


fernando 


-2,20488200000 


a 


a 


bola 


Foi 


-2,02271700000 


a 


a 


bola 


Fonte 


-2,50851900000 


a 


a 


bola 


Ja 













Figura 5 - Grupos de quatro palavras com valor de frequencia 

Se, por exemplo, se pretender calcular a frequencia de ocorrencia da palavra abadessa, 
pode-se faze-lo, bastando para isso calcular 10 A -6,485709 = 3,268e-7. 

Esta forma de calculo aplica-se a todos os grupos de palavras existentes e a frequencia 
resultante esta compreendida entre e 1 . 

Para os casos em que nao existe o grupo de palavras para o qual se pretende saber a 
frequencia usou-se o processo de calculo com base em backoff. 

Seguidamente apresenta-se o exemplo para um grupo de tres palavras: 
Considera-se wdl, wd2 e wd3, respectivamente a l a palava, a 2 a palavra e a 3 a palavra. 
Considera-se p_3 (wdl, wd2, wd3) a probabilidade do trio wl, w2 e w3. 
Considera-se bo_wt_2(wl, w2) o factor de backoff do par wl, w2. 
Entao: 

p (wd3 | wdl , wd2) = Se (existe trigrama) 

P_3 (wdl , wd2 , wd3) 
Senao 

Se(existe par wl,w2) 

bo_wt_2 ( wl , w2 ) +p ( wd3 | wd2 ) 
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Senao 

p (wd3 | wd2) 
p(wd2|wdl)= Se (existe par) 
p_2 (wdl , wd2 ) 
Senao 

bo_wt_l (wdl) +p_l (wd2) 
Todas as probabilidades e factores de backoff estao no formato logi . 
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3 CONCEITOS DA POETICA PORTUGUESA 



3.1 Introdugao 

Neste capitulo sao apresentadas as definicoes encontradas na pesquisa bibliografica 
efectuada de modo a definir a implementacao dos conceitos no sistema, para realizar quer a 
classificacao quer a sugestao das palavras finais. 

Por vezes foram encontradas varias definicoes para o mesmo conceito pelo que se optou por 
apresentar apenas aquelas definicoes que contribuiram para a implementacao desses conceitos no 
sistema. 



3.2 Acentuagao das Palavras 

A acentuacao das palavras permite determinar o tipo das palavras que sao usadas nos 
poemas e e necessaria na classificacao dos poemas. Para se classificar a palavra quanto a sua 
acentuacao sao necessarios dois passos: 

• em primeiro lugar, decompor a palavra em silabas; 

• em segundo lugar, verificar a posicao da silaba tonica (ou acentuada) da palavra. 
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Palavra 


















... 


Sflaba Tonica 



















Palavra 


























... 


Sflaba Tonica 






Sflaba 



























Palavra 
































... 


Sflaba Tonica 






Sflaba 






Sflaba 

































Palavras 
Oxitonas 

(agudas) 

Palavras 
Paroxitonas 

(graves) 

Palavras 

Proparoxftonas 

(esdruxulas) 



Figura 6 - Classifica9ao das palavras. 

A sflaba acentuada pode encontrar-se em tres posicoes (Figura 6): 

• Ultima sflaba; 

• Peniiltima sflaba; 

• Antepenultima sflaba. 

No caso da sflaba acentuada se encontrar na ultima sflaba a palavra e aguda ou oxftona. No 
caso de se encontrar na peniiltima sflaba a palavra e grave ou paroxftona. No caso de se encontrar 
na antepenultima sflaba a palavra e esdriixula ou proparoxftona. 

Como exemplo, as palavras 'acentuacao', 'vistas' e 'ultima' tern, respectivamente, os tipos 
aguda, grave e esdriixula. 



3.3 Transcrigao Fonetica das Palavras 

Foi usado o alfabeto fonetico para o dialecto padrao do portugues europeu [SAM-PA], que e 
apresentado na Tabela 2. Para cada som do alfabeto fonetico existe um exemplo de palavra e 
respectiva transcricao fonetica. 

Um alfabeto fonetico e usado para representar os sons das palavras e possibilitar a 
comparacao de equivalencia de sons entre palavras. O alfabeto fonetico permite, dada uma palavra, 
representar a respectiva transcricao fonetica fazendo corresponder a palavra o seu som. A partir 
das transcricoes foneticas das palavras e possfvel determinar se duas palavras tern o mesmo som, 
possibilitando a deteccao da rima. 
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Som / Exemplo 


Som / Exemplo 


Som / Exemplo 


Som / Exemplo 


Som / Exemplo 


1 


idade [idad@] 


i~ 


inchou [i~So] 


P 


pago [pagu] 


f 


fora [fOr6] 


1 


leal [ljal-] 


e 


erros [eRuS] 


e~ 


enjoa [e-Zo6] 


b 


burra [buR6] 


V 


vala [val6] 


1~ 


alges [al~ZES] 


E 


erva [Erv6] 


6~ 


anda[6-d6] 


t 


ti [ti] 


s 


seco [seku] 


L 


bolha [boL6] 


a 


acre [akr@] 


o~ 


bombo [bo~bu] 


d 


dar [dar] 


z 


zeros [zEruS] 






6 


abelha [6b6L6] 


u~ 


um [u~] 


k 


campo [k6~pu] 


S 


chapa [Sap6] 


r 


par [par] 


@ 


bate [bat@] 


j~ 


deem [de6~j~] 


g 


galho [gaLu] 


Z 


gelar [Z@lar] 


R 


rato [Ratu] 


O 


orca [Ork6] 


w~ 


adao [6d6~w~] 

















ouro [oru] 














m 


mudo [mudu] 


u 


uno [unu] 














n 


nobre [nObr@] 


J 


ideais [idjajS] 














J 


cunho [kuju] 


w 


aos [awS] 



















Tabela 2 - Alfabeto fonetico para o dialecto padrao do portugues europeu SAM-PA. 

Os sons sao condicionados pelo aparelho fonador, sendo distinguidos consoante o papel das 
cavidades nasais, o modo de articulacao e o papel das cordas vocais. A Tabela 2 esta organizada 
em cinco colunas. Na primeira coluna encontram-se as vogais orais e na segunda coluna as vogais 
nasais. Na terceira coluna encontram-se as consoantes orais oclusivas, na quarta coluna 
encontram-se as consoantes orais constritivas frincativas. Na quinta coluna encontram-se tres 
grupos, distinguindo-se em primeiro lugar as orais constritivas laterals, em segundo lugar as orais 
constritivas vibrantes e em terceiro as consoantes nasais sonoras. 

Para cada som e mostrado um exemplo de palavra com a respectiva transcricao fonetica. 
Destacando dois exemplos da tabela, pode-se verificar que o som que e representado pela letra 'i' 
existe na palavra 'idade' cuja respectiva transcricao fonetica 'idad@' inclui este som no inicio da 
palavra. O som que e representado pelas letras 'o~' existe na palavra 'bombo' cuja respectiva 
transcricao fonetica 'bo~bu' inclui este som. 



3.4 Rima 

Como ja foi referido anteriormente, a verificacao da rima tern em conta a transcricao 
fonetica das palavras. Para o realizar, as palavras sao convertidas no conjunto de caracteres do 
alfabeto fonetico que correspondem aos sons da palavra. 
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Quando se fala em transcricao fonetica, existem dois aspectos que sao necessarios ter em 
conta: 

• Existem palavras com miiltiplas transcricoes foneticas; 

• E necessario tratar as palavras que nao estao contidas no lexico. 

Um dos criterios usados, para decidir qual a transcricao fonetica a escolher, tern como base a 
categoria gramatical da palavra depois de efectuar a analise sintactica da frase que contem a 
palavra. No ambito deste trabalho optou-se por escolher a transcricao fonetica mais comum e 
assim utilizar apenas uma. 

Quando uma palavra nao existe no lexico, a transcricao fonetica dessa palavra e fornecida 
pela aplicacao externa e e adicionada ao lexico do sistema. Quando a palavra j a existe no lexico 
entao e usada a informacao ai existente. Desta forma consegue-se optimizar o acesso as palavras 
que ja existem no lexico, pois antes de ser armazenada e feito um pre processamento a palavra de 
modo a optimizar o acesso. A aplicacao externa gera as transcricoes foneticas com base num 
conjunto deregras. 

No portugues europeu a ortografia pode ser considerada de base essencialmente fonologica, 
ou seja, existe uma elevada regularidade entre a ortografia e a fonetica [Oliveira, 1996]. Esta 
tambem e uma das razoes pela qual os dicionarios de rima apenas baseados nas letras terminals das 
palavras mesmo assim conseguem obter bons resultados de consulta. 

A transcricao fonetica so por si nao e suficiente para realizar a verificacao da rima. Para se 
conseguir implementar a rima, tambem e necessario incluir na transcricao fonetica a indicacao do 
som que corresponde a vogal tonica da palavra. 

O resultado da transcricao fonetica e obtido a partir da aplicacao externa Leia [Oliveira, 
1996] e o resultado obtido pode ser parametrizavel na invocacao. Teve de se activar o parametro 
que assinala a vogal acentuada da palavra. 

A aplicacao Leia e baseada no sistema DIXI, que foi o primeiro sistema de sintese de fala a 
partir de texto desenvolvido de raiz para a lingua portuguesa [Oliveira, 1996]. A transcricao fonetica 
e realizada quer por consulta de um dicionario, quer por um conjunto de regras. No contexto deste 
trabalho, nao se pretende gerar fala, mas a utilizacao da transcricao fonetica para verificacao de 
rima e o que permite identificar as palavras consoantes. 

A indicacao da vogal acentuada e assinalada pelo simbolo " e todos os caracteres que 
aparecem apos este caracter correspondem a transcricao fonetica da terminacao da palavra que e 
comparada para efeitos de rima. 
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Palavra 


Transcricao Fonetica 


Eu 


"ew 


Nao 


n"6~w~ 


Tenho 


t"6Ju 


Vistas 


v"iSt6S 


Largas 


l"arg6S 


Sabedoria 


s6b@dur"i6 



Tabela 3 - Exemplo de transcrijoes foneticas. 

A Tabela 3 apresenta um conjunto de exemplos de transcribes foneticas de palavras 
extraidas de uma quadra. Destacando um dos exemplos apresentados pode-se verificar que a 
transcricao fonetica da palavra 'Nao' corresponde a (n"6~w~). 

Se se analisarem as terminacoes foneticas das palavras 'Vistas' e 'Largas', para as comparar 
em termos de rima, obtem-se respectivamente as terminacoes foneticas 'iSt6S' e 'arg6S'. Como se 
pode verificar elas sao diferentes, o que significa que as palavras nao rimam entre si. 



3.5 Divisao em Silabas Gramaticais 

A divisao silabica das palavras implementada na aplicacao Leia tern como base um conjunto 
de 11 regras que contemplam como fronteira de silaba uma sequencia consoante vogal, tendo o 
cuidado de nao separar os grupos indivisfveis (pr, gl, etc.) e os digrafos (nh, ch, etc.) [Oliveira, 
1996]. Para realizar a divisao silabica das palavras, apenas foi necessario usar a mesma aplicacao 
externa Leia, alterando os parametros de invocacao da aplicacao. 

Na divisao silabica, e usado o simbolo '$' como separador de silabas e e tambem assinalada 
a vogal acentuada com o mesmo simbolo anteriormente definido. O processamento das vogais 
acentuadas que e utilizado na aplicacao externa Leia corresponde a um formato interno composto 
pelas letras minusculas entre a e z e pelas marcas de acento agudo ('), circunflexo ( A ) e til (-) 
imediatamente a seguir a respectiva vogal e pelo acento grave 0) antes da vogal. A cedilha e 
representada pelo simbolo (,) depois da letra C. 
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Palavra 


Divisao Silabica 


Eu 


eu 


Nao 


n"a~o 


Tenho 


t"e$nho 


Vistas 


v"is$tas 


Largas 


l"ar$gas 


Sabedoria 


sa$be$do$r"i$a 



Tabela 4 - Exemplo de divisoes silabicas. 

A Tabela 4 exemplifica alguns resultados de divisao silabica. Destacando dois exemplos 
apresentados pode-se verificar que a divisao silabica da palavra 'Nao' corresponde a (n"a~o). 
Pode-se ainda verificar que a palavra 'Nao' e composta por uma unica silaba e corresponde a uma 
palavra aguda, por ser acentuada na ultima silaba. Ja a palavra 'Sabedoria' e composta por cinco 
silabas gramaticais, e acentuada na penultima silaba, o que corresponde a uma palavra grave. 

Na divisao silabica e a indicacao da vogal acentuada que permite verificar se se trata de uma 
palavra aguda, grave ou esdriixula, bastando para isso contar o niimero de silabas que aparecem 
apos a indicacao de silaba tonica. No caso da palavra 'Sabedoria' podemos contar mais uma silaba 
apos a indicacao de silaba tonica. 

No lexico, estas palavras sao representadas com os caracteres com os respectivo acentos, ou 
seja, e feita a conversao das letras mais os acentos que se obtem em letras com acentos. Para 
depois ficar de acordo com o lexico e necessario a conversao de (n"a~o) para (n"ao). 



3.6 Divisao em Silabas Metricas 

As silabas metricas sao as silabas contadas nos versos tal como sao apercebidas pelo ouvido. 
Para realizar a divisao dos versos em silabas metricas e necessario ter em conta o ritmo do verso 
que define o seu periodo rftmico. 
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A principal diferenca em termos de contagem e que as silabas metricas apenas contabilizam 
o numero de silabas ate a ultima silaba acentuada da palavra. Existem ainda outros processos que 
alteram o numero de silabas e que fazem aumentar ou diminuir o numero de silabas metricas. 

Existem duas regras que resumem as varias situacoes: 

• Quando uma palavra termina em vogal e a primeira silaba da palavra seguinte 
tambem comeca por vogal, desde que nao sejam ambas tonicas, da-se uma juncao 
das duas numa so; 

• Os hiatos podem transformar-se em ditongos e os ditongos podem transformar-se em 
hiatos. 

Como exemplo, apresenta-se um verso de Fernando Pessoa dividido em silabas metricas: 

• "Qual/quer/ coi/sa em/ mi/nha al/(ma)". 

O verso e composto por seis silabas metricas. As juncoes das silabas 'sa em' e 'nha al' sao 
um exemplo da primeira regra. No primeiro caso, em que as vogais sao diferentes designa-se por 
elisao e no segundo caso em que as vogais sao iguais designa-se por erase. 

No caso do exemplo 'coisa em' e dada a fusao entre o 'a' e o 'e' obtem-se a seguinte divisao 
'coi/sem' mas dependendo da proniincia tambem se pode obter o ditongo 'ai' e neste caso fica a 
divisao 'coi/saim', designando-se neste caso por sinalefa em que a fusao entre o 'a' e o 'e' forma o 
ditongo 'ai'. 

Outro exemplo que ilustra a segunda regra, sao os versos em que entra a palavra 'glorias'. 
Gramaticalmente a palavra tern tres silabas 'glo/ri/as' mas se se juntar o hiato 'i' e 'a' em que as 
vogais pronunciadas separadamente passam a pronunciar-se como uma vogal mais uma semi vogal 
tem-se o ditongo 'ia' e passa a palavra a contabilizar apenas duas silabas 'glo/rias'. Este caso 
designa-se por sinerese. O inverso tambem acontece com menos frequencia e da-se o nome de 
dierese. 

Pode ainda dar-se a supressao de sons no inicio, meio ou fim da palavra designados 
respectivamente por aferese, sincope e apocope. As palavras 'estamos', 'coroa' e 'marmore' sao 
exemplo respectivamente Vstamos', 'c/roa' e 'marmor/'. 

Uma hipotese, para implementar estas regras, e a de adicionar ao texto da transcricao 
fonetica as marcas com as varias hipoteses de divisao silabica das palavras [Mamede et al., 2004]. 

No trabalho realizado contabilizam-se as silabas metricas tendo em conta a contagem de 
silabas ate a silaba acentuada da ultima palavra do verso. 
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3.7 Categoria Morfologica das Palavras 

Um dos processos que permite seleccionar e excluir, logo a partida, grande parte das 
palavras sao as categorias gramaticais das palavras. O objectivo e a partir de uma frase incompleta 
verificar quais as categorias possiveis para a proxima palavra e assim restringir o conjunto de 
palavras possiveis. 

Com base no conjunto de categorias obtido, sao seleccionadas apenas as palavras que 
pertencem a esse conjunto de categorias. O objectivo desta seleccao e reduzir o numero de 
palavras. 

A analise sintactica e realizada em varias fases e com diferentes aplicacoes externas. Os 
dados de entrada sao uma frase incompleta e os dados de saida sao o conjunto de classes possiveis 
para a proxima palavra. A Figura 7 resume o processo descrito. 



cil 



Menina que 



i=fc 



Gera 
Classes 



todo_p, ... , 
parf, ponctu, 
Ptvir 



gj Favor de ?? 

Figura 7 - Modulo externo de geracao de classes 



Frase 
incompleta 
do poema 



SMorph 



Pasmo 



Susana 



Analise 
Morfol6gica 




Pos Analise 
Morfoldgica 




Analise 
Sintactica 



Analise 
Morfologica da 
frase do poema 



Pos Analise 
Morfologica da 
frase do poema 



Classes da 
proxima 
palavra 



Figura 8 - Funcionamento interno do modulo externo de geracao de classes. 

A Figura 8 ilustra o funcionamento interno do modulo externo de geracao de classes atraves 
de um diagrama de actividade descrito na linguagem UML. 

No primeiro passo e utilizada a aplicacao Smorph [Ait-Mokhtar, 1998]. Este passo tern 
como entrada a frase incompleta do poema e obtem como resultado a analise morfologica das 
palavras que compoem a frase e que inclui, a titulo de exemplo, a categoria, o numero e o genero. 
Este resultado vai ser passado para a proxima fase. Este primeiro passo usa um dicionario. 



28 



O segundo passo consiste em realizar a pos analise morfologica. A aplicacao Pasmo [Paulo 
& Mamede, 2001], responsavel por este passo, filtra alguns dos lemas possiveis e altera o formato 
de algumas palavras. Este passo reescreve o texto de acordo com as regras e tambem agrupa as 
palavras em frases. 

O terceiro passo corresponde a uma analise sintactica da frase que permite determinar para 
essa frase quais as classes possiveis para a proxima palavra [Hagege, 2000] e [Batista, 2002]. Para 
tal utilizou-se a aplicacao Susana que agrupa os constituintes da frase e gera como resultado as 
varias classes possiveis para a proxima palavra. 

3.8 Conceitos Estruturais 

As definicoes dos conceitos da poetica portuguesa que servem de base a esta proposta sao 
um pouco vagas e, por vezes, recorrem a sentimentos e imagens para caracterizar os conceitos. 
Algumas definicoes sao definidas a custa de outras e por vezes existem definicoes circulares dos 
conceitos. 

A preocupacao principal para compreender e implementar estes conceitos foi a de procurar 
varias definicoes para o mesmo conceito e conseguir extrair a parte que permite a sua 
automatizacao, nao esquecendo de registar os respectivos compromissos adoptados. As diferentes 
definicoes sao confrontadas e comparadas. 

O primeiro conceito a definir e o de poema. Sao varias as definicoes possiveis, que vao 
desde as mais subjectivas as mais objectivas. Comecando por uma das mais subjectivas, das 
analisadas, pode-se dizer que poema e "precisamente uma tecnica linguistica de producao dum 
tipo de consciencia que o espectdculo do mundo nao produz ordinariamente" , citagao de Jean 
Cohen, Structure du langage poetique, 1966, [Moises, 1974]. 

Outra definicao com o mesmo nivel de subjectividade e a seguinte: " Consider a-se poema 
toda composicao literdria de indole poetica" [Moises, 1974]. 

Das definicoes analisadas, a mais objectiva foi a de que o poema e "«m organismo verbal 
que contem, suscita ou segrega poesia", citagao de Octavio Paz, El Arco y la Lira, 1956, [Moises, 
1974] e que define poema com base na definicao de poesia. 

Tambem foram varias as definicoes de poesia que foram analisadas. Foram escolhidas duas 
definicoes de poesia sendo a primeira mais subjectiva e a segunda mais objectiva. 

Como primeira definigao de poesia tem-se: "e a comunicacao, estabelecida com meras 
palavras, de um conhecimento de indole muito especial: o conhecimento de um conteudo, psiquico 
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tal como e: ou seja, de um conteudo psiquico como um todo particular, como sintese intuitiva, 
unica, do conceptual-sensorial-afetivo" , citacao de Teoria de la Expression Poetica, 4 a ed., 1969, 
[Moises, 1974]. 

A segunda definicao de poesia e: "Se eu chamar prosa a um discurso minimo, veiculo mais 
economico do pensamento, e chamar, a, b, c, a atributos particulares da linguagem, inuteis mas 
decorativos, tais como o metro, a rima ou o ritual das imagens, toda a superficie das palavras se 
encaixard na dupla equacao de M. Jourdain: 
Poesia = Prosa + a + b + c 
Prosa = Poesia - a - b - c 

Dai resulta evidentemente que a Poesia e sempre diferente da Prosa. Mas tal diferenca nao 
e de essencia, e de quantidade", citacao de O Grau Zero da Escritura, tr. br., 1971, [Moises, 1974]. 

A partir desta ultima definicao conclui-se que poesia e diferente de prosa e a diferenca 
encontra-se nos atributos particulares da linguagem, como sao o metro e a rima. 

Foi ainda analisada outra definicao que colide com a segunda definicao de poesia 
apresentada que afirma que "existem poemas sem poesia, e a poesia pode surgir no dmbito de um 
romance ou de um conto" [Moises, 1974]. Esta definicao baseia-se mais na primeira definicao de 
poesia apresentada, ou seja, na comunicacao estabelecida entre o poeta e o leitor, no conteudo 
psiquico, conceptual, sensorial e afectivo. No ambito desta dissertacao nao se considera a poesia 
moderna onde a fronteira entre estes conceitos e ainda mais difusa. 

Nao tendo a ambicao de levar estas definicoes ao extremo, nem o desejo de contemplar 
todas as hipoteses possiveis de poemas, e olhando para estas definicoes de poesia de um ponto de 
vista pratico e funcional, surge a necessidade de restringir o dominio da definicao, bem como dos 
poemas possiveis de serem utilizados. O primeiro compromisso que se adopta, e o de admitir que o 
dominio dos poemas que se pretende alcancar e aquele em que existe poesia. Os textos poeticos 
tern uma estrutura de escrita bem definida e regras de construcao bem definidas que obedecem as 
normas impostas pela tradicao e respeitam os aspectos formais da escrita, como sao exemplo o 
metro e a rima. 

Das definicoes de poema e poesia apresentadas, conclui-se que, do ponto de vista estrutural, 
um poema esta organizado em estrofes. Assim, para as definicoes ficarem completas e necessario 
definir estrofe. 

Uma estrofe e "um conjunto de, versos, soliddrios pelo ritmo e insepardveis pelo 
pensamento", citacao de Amorim de Carvalho, Tratado de Versificacao Portuguesa, 1941, 
[Moises, 1974]. Embora um pouco filosofica, esta definicao e complementada pela seguinte 
definigao: "Por estrofe entende-se cada uma das secedes que constituem um poema, ou seja cada 
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agrupamento de versos, rimados ou nao, com unidade de conteudo e de ritmo" [Moises, 1974]. 
Conclui-se que as estrofes correspondem aos grupos de linhas que constituem o poema. 

Como as estrofes se organizam em versos, torna-se necessario definir verso. Se se tiver em 
conta a utilizacao mais antiga desta palavra, "Inicialmente significava em latim, a volta que dava a 
charrua ao fim de cada sulco, mas depois passou a aplicar-se, por extensao, ao proprio sulco; 
finalmente, por metdfora, ganhou o sentido de linha de escrita, que finalmente se especializou no 
de linha de escrita empoesia, composta por um numero determinado de silabas" [Coelho, 1987]. 

Outra definicao mais resumida aponta que um "verso e a sucessao de silabas ou fonemas 
formando unidade ritmica e melodica, correspondente a uma linha do poema. Cada verso 
subdivide-se ainda em subunidades caracterizadas pelo agrupamento de silabas chamado de pi 
na versificacao greco-latina" [Moises, 1974]. Assim se obtem uma definicao que para estar 
completa necessita apenas de definir o significado das subunidades que compoem o verso. 

A estrutura do poema, apresentada na Figura 9, resume as definicoes que foram 
apresentadas. 
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Figura 9 - Estrutura do poema. 

Um poema corresponde a um texto, em que as mudancas de linha definem o fim de cada 
verso e uma linha vazia define as mudancas de estrofe. Uma estrofe corresponde, portanto, a um 
conjunto de linhas que termina numa linha em branco. As definicoes adoptadas permitem definir a 
estrutura de um poema e assim automatizar a sua classificacao. 

Um verso pode ser constituido por uma palavra so ou por varias. Os elementos do verso que 
foram considerados para implementar a sua classificacao foram o numero de silabas e a rima. 

Segundo a definicao de verso apresentada anteriormente ficaram por definir as subunidades 
que compoem o verso. Os versos podem ser subdivididos usando diferentes metricas: em silabas 
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ou em pes. Um pe "designa a unidade ritmica e melodica do verso, composta de um grupo de 
silabas. Remonta aos gregos e romanos, que mediam os versos em sequencias temporais 
separadas por intervalos regulares. Cada sequencia, ou celula metrica, compunha-se de duas ou 
mais silabas, cuja mensuracao se fazia pelo tempo despendido na sua prolacao" [Moises, 1974]. 

Conclui-se, portanto, que os pes correspondem a agrupamentos de silabas que tern em conta 
o tempo despendido na prolacao. Os versos superiores a 5 silabas podem ser subdivididos em 
hemistiquios, que correspondem a metade do verso, e sao assinalados por uma pausa ou cesura. 

As pausas ou cesuras correspondem a cortes no interior do verso e a diferenca entre pausa e 
cesura e que a cesura e fixa enquanto a pausa pode variar com a pessoa. 

Nesta proposta, apenas se adoptou como subunidade do verso a silaba, uma vez que 
corresponde a unidade mais elementar de decomposicao da palavra, podendo a partir dela 
obterem-se as outras subdivisoes. Existem, como foi visto anteriormente, dois tipos de silabas que 
podem ser tidos em conta quando se fala numa composicao poetica: as silabas gramaticais e as 
silabas metricas. As silabas gramaticais dividem as palavras segundo as leis da gramatica e as 
silabas metricas tern em conta a forma como sao apreciadas pelo ouvido. Por estarem sujeitas a 
contraccoes e serem contabilizadas ate a silaba tonica da ultima palavra (sistema que foi iniciado 
entre nos, por Feliciano de Castilho[Areal, 2000]), o niimero de silabas metricas pode ser igual ao 
niimero de silabas gramaticais, mas tipicamente e inferior. Nesta dissertacao foi usada a contagem 
de ambas as silabas gramaticais e metricas sem contemplar as j uncoes das vogais. 
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Figura 10 - Estrutura do verso. 

A estrutura do verso apresentada na Figura 10 esquematiza a definicao apresentada. Em 
resumo, cada verso esta decomposto em palavras que, por sua vez, se dividem em silabas. As 
silabas que podem ser consideradas sao as silabas gramaticais ou, obter a partir destas, as silabas 
metricas e os pes. Tanto as silabas metricas como os pes tern em conta o tempo de prolacao. A 
decomposicao de um verso em silabas metricas designa-se por escansao. 
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Como exemplo de decomposicao em silabas, apresenta-se um verso de Fagundes Varela: 

• "Que prende o ceu a terra e a terra aos anjos", [Areal, 2000] 
E respectivas decomposicoes silabicas: 

• Silabas gramaticais: "Que/ pren/de/ o/ ceu/ a/ ter/ra/ e/ a/ ter/ra/ aos/ an/jos". (15 
silabas) 

• Silabas metricas: "Que/ pren/de o/ ceu/ a/ ter/ra e a/ ter/ra aos/ an/(jos)". (10 silabas) 
O proximo conceito a definir, com vista a sua automatizacao, e a rima. "Depara-se-nos uma 

rima (final) quando, em duas ou mais palavras, a ultima vogal acentuada, com tudo o que se Ihe 
segue, tern identica sonoridade", citacao de Analise e Interpretacao da Obra Literaria, 1958, vol. I, 
[Moises, 1974]. Por outras palavras, rima e a correspondencia sonora entre as silabas finais dos 
versos. 

Quando a correspondencia de sons a partir da vogal tonica e perfeita, incluindo vogais e 
consoantes, a rima diz-se consoante. Se pelo contrario, a correspondencia de sons se verifica 
apenas entre as vogais, a rima e toante. As palavras 'faz' e 'papas' ou 'inclina' e 'pequenina' sao 
um exemplo de rima consoante. As palavras 'faz' e 'la' ou 'inclina' e 'filha' sao um exemplo de 
rima toante. 

A rima pode ainda designar-se por rima rica no caso de se dar entre palavras de classe 
gramatical diferente ou rima pobre quando se da entre palavras de classe gramatical igual. Servem 
de exemplo de rima rica as palavras 'sepulcrais' (adjectivo) e 'mais' (adverbio) ou 'desordem' 
(substantivo) e 'mordem' (verbo). Servem de exemplo de rima pobre as palavras 'ves' (verbo) e 
'les' (verbo) ou 'miseravel' (adjectivo) e 'inseparavel' (adjectivo). 

A Figura 11 ilustra a definicao de rima adoptada. 
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Figura 1 1 - Esquematizacao de rima. 
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O processo responsavel por automatizar a deteccao da rima tern em conta apenas as ultimas 
palavras de cada verso e, para estas palavras, sinaliza a ultima vogal acentuada. Pode-se concluir, 
em resumo, que duas palavras rimam quando, a partir da vogal tonica (inclusive) e com tudo o que 
se lhe segue, as palavras tern igual sonoridade. 

Tambem surgiu a necessidade de limitar o ambito da definicao de rima e em termos de 
implementacao consideram-se apenas rima consoante, ou seja, aquela em que existe uma 
correspondencia total a partir da silaba tonica. 

Todas as definicoes apresentadas serviram de base para realizar a aquisicao dos poemas, na 
medida em que permitem implementar um algoritmo que realiza a aquisicao dos poemas e 
identifica os conceitos estruturais e de rima dos poemas a classificar. 



3.9 Regras de Classificacao de Poemas 

Quando se constroi um poema, e necessario ter em conta alguns factores que determinam 
diferentes tipos de poema: existem poemas em que o niimero de versos que constituem as estrofes 
e constante; existem poemas em que o niimero de silabas de cada verso e constante; e existem 
poemas em que os versos que rimam entre si poderao apresentar-se com diferentes configuracoes. 
A Tabela 5 resume as diferentes classificacoes quanto ao niimero de versos. 



N° de Versos 


Designacoes possiveis 


Designacao Adoptada 


1 


monotico 


monotico 


2 


distico, parelha ou pareado 


distico 


3 


tristico ou terceto 


terceto 


4 


tetrastico, quadra ou quarteto 


quadra 


5 


pentastico, quinteto ou quintilha 


quintilha 


6 


hexastico, sextilha, sexteto ou septena 


sextilha 


7 


heptastico, setima, septilha, septena ou hepteto 


setima 


8 


octastico ou oitava 


oitava 


9 


nona, eneagesima ou novena 


nona 


10 


decastico, decada ou decima 


decima 


n 


n versos 


n versos 



Tabela 5 - Classificacao das estrofes quanto ao n° versos. 



34 



As estrofes, tambem designadas por estancias, correspondem a um agrupamento de versos e 
consoante a distribuicao dos versos pelas estrofes assim se obtem diferentes tipos de estrofe com 
diferentes designacoes. Os numeros de versos mais comuns sao de 2, 3, 4, 5, 6, 8 e 10 versos, 
como se pode ver na Tabela 5. 

Para cada valor de niimero de versos, em cada uma das linhas da Tabela 5, existem 
diferentes designacoes possiveis e a sua utilizacao varia de autor para autor. Foi escolhida a 
designacao mais comum entre as varias hipoteses para os valores entre 1 e 10. Para as estrofes com 
mais de 10 versos adoptou-se a regra geral de colocar o niimero de versos seguido da palavra 
verso(s). Por exemplo, uma estrofe com 13 versos aparece a designacao '13 versos'. 

Outro factor que permite distinguir diferentes tipos de poemas e o niimero de silabas que 
compoem o verso. Existem na lingua portuguesa versos desde uma a treze silabas, sendo os mais 
usados os de 5, 6, 7, 10 e 12. A Tabela 6 resume as varias classificacoes possiveis. 



N°de 
Silabas 


Designacoes possiveis 


Designacao 
Adoptada 


1 


1 sflaba 


1 sflaba 


2 


dissilabo ou bissilabo 


bissilabo 


3 


trissilabo, quebrado de redondilha maior, 
redondilho quebrado ou cola 


trissilabo 


4 


tetrassilabos 


tetrassilabos 


5 


pentassilabo ou redondilha menor 


pentassilabo 


6 


hexassilabo, heroico quebrado ou heroico menor 


hexassilabo 


7 


heptassilabo ou redondilha maior 


heptassilabo 


8 


octossilabo 


octossilabo 


9 


eneassilabo, verso de gregorio de matos 


eneassilabo 


10 


decassilabo, heroico, safico ou provencal 


decassilabo 


11 


hendecassilabo ou verso de arte maior 


hendecassilabo 


12 


alexandrino 


alexandrino 


20 


vintissilabos 


vintissilabos 


n 


n silabas 


n silabas 



Tabela 6 - Classificacao dos versos quanto ao n° silabas. 

Tambem na Tabela 6 existem alguns valores de numeros de silabas que apresentam varias 
designacoes possiveis e a sua utilizacao varia de autor para autor. Adoptou-se, tambem neste caso, 
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a designacao mais usual. Para os versos que nao tern designacao na tabela, adoptou-se a regra geral 
de colocar o niimero de silabas seguido da palavra silaba(s). 

Os versos de uma e duas silabas sao raros. No entanto apresentam-se dois poemas, a tftulo 
de curiosidade, de Casimiro de Abreu [Areal, 2000], um com versos de uma silaba e o outro com 
versos de duas silabas: 



Poema de uma Silaba 
Amo 

Gemo 

CI amo 

Tremo 



Poema de duas Silabas 
Na valsa 

Tao falsa, 

Corrias, 

Fugias, 
Ardente, 
Contente, 

Serena, 
Sem Pena 

De mim 



Ambos os exemplos apresentam uma contabilizagao das silabas metricas dos versos. Como 
se pode verificar, os versos de uma silaba iniciam com a silaba acentuada, nao existindo nenhuma 
outra antes desta. Nos versos de duas silabas apenas existe uma silaba antes da silaba tonica. 

Para classificar os versos quanto ao tipo de rima distinguem-se dois tipos: os versos 
rimados; os versos soltos ou brancos (sem rima). Cada um dos casos caracteriza diferentes tipos de 
poemas. Is to significa que a rima, embora nao seja obrigatoria existir num poema, e um factor de 
classificagao. 

O tipo da ultima palavra permite classificar o tipo de rima, pois, como foi apresentado 
anteriormente, varia com a posigao da silaba acentuada da ultima palavra. Os versos podem ser: 

• Versos agudos - quando as palavras utilizadas na rima sao agudas; 

• Versos graves - quando as palavras utilizadas na rima sao graves; 

• Versos esdriixulos - quando as palavras utilizadas na rima sao esdriixulas. 

As rimas com palavras esdriixulas sao valorizadas, pois apresentam um maior grau de 
dificuldade. 
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Tambem a disposicao estrofica da rima em relacao aos versos que enlaca determina a 
classificacao da rima. Para representar a disposicao estrofica da rima sao utilizadas letras do 
alfabeto que representam a rima da ultima palavra do poema. Para cada verso com rima diferente 
das ja existentes e atribuida uma letra comecando na letra A. Depois, em todos os versos com igual 
rima e usada a mesma letra. 

Quando, por exemplo, se diz que uma estrofe e do tipo (ABAB), isto significa que a estrofe 
e composta por quatro versos e como a primeira letra e igual a terceira sabe-se que o primeiro 
verso rima com o terceiro. Aplicando a mesma regra, pode-se concluir que o segundo verso rima 
com o quarto e obviamente tern rima diferente do primeiro e terceiro. 

A Tabela 7 resume as varias hipoteses possiveis de classificacao quanto a forma como se 
encadeiam os versos que rimam. 



Designacao 


Descricao 


emparelhadas 


Quando os versos que rimam se encontram juntos e aos 
pares (ABB CDD EFF) 


cruzadas 


Quando entre dois versos que rimam se encontra outro 
de diferente rima (ABCB ou ABAB) 


abracadas 


Quando entre dois versos que rimam se encontram dois 
versos de diferente rima (ABBA ou ABCA) 


interpolada 


Quando entre dois versos que rimam se encontram tres 
ou mais versos de diferente rima (ABBBA ou 
ABCDA) 


seguida 


Quando rimam mais de dois versos seguidos (AAA) 


monorrimos 


Quando esta sujeito a uma so rima que pode tambem 
ser cruzada (ABCB) 



Tabela 7 - Classificacao quanto a posicao relativa da rima e dos versos que enlaca. 

Como exemplo destaca-se a rima cruzada da forma ABAB muito usada nas quadras 
populares e em que o primeiro verso rima com o terceiro e o segundo rima com o quarto. 
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3.10 Tipos de Poemas 

A partir das definicoes que foram adoptadas, e possivel realizar a classificacao para 
diferentes tipos de poemas. Entende-se por diferentes tipos de poemas, aqueles que apresentam 
diferente niimero de versos que compoem as estrofes, ou poemas que apresentem diferente niimero 
de silabas que formam os versos, ou poemas que apresentem rima com diferentes categorias de 
palavras finais ou, ainda, poemas com diferentes configuracoes na forma como a rima e enlacada. 

Para alem destas possiveis diferencas, foram ainda utilizados poemas de teste com diferentes 
origens com o objectivo de diversificar, quer no vocabulario quer na estrutura. Os poemas 
realizados por criancas em idade escolar, por exemplo, nao apresentam uma estrutura bem definida 
e homogenea. Pelo contrario, o niimero de versos por estrofe varia durante o poema, tal como o 
niimero de silabas em cada verso. Abaixo apresentam-se dois exemplos de estrofes realizadas por 
criancas de 9 anos [Jorge et al., 2000]: 

"menina que leva a vida 
sentadinha a escrever, 
faca favor de ensinar, 
eu tambem quero aprender. 

Brincar, brincar 
is para brincar 
e alegrar" 

A primeira estrofe e composta por 4 versos e a segunda por tres versos. O niimero de silabas 
em cada verso varia. Na segunda estrofe, por exemplo, o primeiro verso tern 4 silabas gramaticais 
ou metricas e o segundo tern 5 silabas gramaticais ou metricas, e o terceiro verso tern 4 silabas 
gramaticais ou metricas. Nestes exemplos o facto da ultima silaba ser a silaba tonica faz com que o 
niimero de silabas gramaticais e metricas sejam iguais se nao se considerar as juncoes das vogais. 

Em relacao a rima, na primeira estrofe foram utilizadas palavras graves e agudas e a forma 
como a rima foi enlacada foi o 2° verso a rimar com o 4° verso. Ja na segunda estrofe foram 
utilizadas palavras agudas e a forma como se enlacou a rima foi a de todos os versos rimarem entre 
si. Tambem e comum nos poemas de criancas a tendencia para colocar todos os versos com a 
mesma rima (rima seguida). 

As duas primeiras estrofes da obra Os Lusiadas, de Camoes, mostram outro exemplo de 
poema utilizado no teste do sistema: 
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"As armas e os baroes assinalados 
Que da ocidental praia lusitana 
Por mares nunca de antes navegados 
Passaram ainda alem da Taprobana, 
Em perigos e guerras esforcados 
Mais do que prometia aforca humana, 
E entre gente remota edificaram 
Novo Reino, que tanto sublimaram; 

E tambem as memorias gloriosas 
Daqueles Reis queforam dilatando 
A Fe, o Imperio, e as terras viciosas 
De Africa e de Asia andaram devastando, 
E aqueles que por obras valerosas 
Se vao da lei da morte libertando, 
Cantando espalharei por toda parte, 
Se a tanto me ajudar o engenho e arte." 

Neste exemplo, ambas as estrofes tern 8 versos (oitavas). Tambem o niimero de silabas em 
cada verso e constante contando-se sempre 12 silabas gramaticais ou 10 silabas metricas 
(decassilabo ou heroico). Neste caso estas estrofes tambem tomam a designacao de oitava-rima. A 
forma como os versos sao enlacados e sempre a mesma, sendo os 6 primeiros versos de rima 
cruzada e os dois ultimos de rima emparelhada, ou seja, (A B A B A B C C). 

As quadras populares, tambem correspondem a um tipo de poema em que e constante o 
niimero de versos, o niimero de silabas e o enlace da rima. Foram seleccionadas 3 quadras de 
Antonio Aleixo para o ilustrar: 

"Eu nao tenho vistas largas, 
Nem grande sabedoria, 
Mas dao-me as horas amargas 
Licoes de Filosofia. 

Ha luta por mil doutrinas. 
Se querem que o mundo ande, 
Facam das mil pequeninas 
Uma so doutrina grande. 
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Quando os Homens se convencam 
Que a fore a nada sefaz, 
Serao felizes os que pensam 
Num. mundo de amor e paz" 

Neste exemplo as estrofes sao compostas de 4 versos (quadra), os versos sao compostos por 
8 silabas gramaticais ou 7 silabas metricas (redondilha maior), quanto a rima as palavras utilizadas 
variam entre agudas e graves e o enlace tern sempre a mesma configuracao de rima cruzada, ou 
seja, (ABA B). 
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4 O SlSTEMA LUCAS 



4.1 Introdugao 

Para validar as definicoes anteriormente descritas, e com o objectivo de construir um 
sistema que cumpra os objectivos iniciais, foi construido um demonstrador a que se deu o nome de 
LuCas. O nome do sistema foi inspirado no nome do poeta Luis de Camoes. O sistema LuCas 
realiza, por um lado, a classificacao de poemas que sao fornecidos pelo utilizador, e por outro lado, 
sugere as palavras finais dos versos, quando o utilizador esta a construir poesia, tendo em conta 
uma estrutura pre-definida de poema escolhida pelo utilizador. 

Foram feitas algumas opcoes de implementacao com vista a facilitar, por um lado, o 
funcionamento em varios sistemas operativos e, por outro, possibilitar a visualizacao num browser. 
Para tentar satisfazer da melhor forma possivel estas duas opcoes optou-se pela linguagem de 
programacao Java, que corre em diferentes sistemas operativos. A aplicacao foi construida sob a 
forma de uma Applet, possibilitando assim o seu funcionamento num browser. 

Em termos de arquitectura, tambem foram feitas algumas opcoes de desenho para permitir 
alguma flexibilidade e adaptabilidade as alteracoes de requisitos funcionais. O sistema 
implementado esta organizado em modulos funcionais concebidos para serem o mais 
independentes possivel, com vista a reutilizacao das suas funcionalidades por outras aplicacoes. 

No contexto do grupo de investigacao, as aplicacoes externas sao disponibilizadas atraves da 
interface baseada em browser GallnHa [Matos et AL, 2003] inspirada plataforma Galaxy [Seneff et 
al., 1998], que corresponde a uma arquitectura aberta para construcao de sistemas de dialogo. Esta 
infra-estrutura distribuida tem uma aproximacao em que os modulos sao independentes entre si e 
podem ser acrescentados ou removidos da infra-estrutura, permitindo, no caso em que sao 
adicionados a infra-estrutura disponibilizar o acesso as suas funcionalidades estando assim prontos 
a funcionar. 
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O Galaxy foi introduzido pela primeira vez em 1994 e consistia numa plataforma de testes 
para tecnologias de lingua falada. Foi remodelada em 1998 com o intuito de ser uma plataforma de 
referenda que usa uma linguagem de script para controlo de fluxo [Seneff et al., 1998]. O controlo 
dos diversos servidores que estao disponiveis no Galaxy e feito atraves de um hub que controla o 
fluxo de informacao entre eles [Seneff et al., 1999]. Esta plataforma providencia, por um lado, uma 
boa ferramenta para desenvolver sistemas e, por outro, a de configurar e avaliar esses sistemas 
[Polifroni & Seneff, 2000]. 

Houve neste trabalho a preocupacao de divisao das funcionalidades por varios modulos para 
possibilitar a futura integracao no GallnHa [Matos et Al., 2003]. Uma das vantagens da divisao em 
modulos e permitir melhorar o funcionamento de um determinado modulo sem ter de estar 
preocupado com os efeitos colaterais nos outros modulos e desde que se mantenha a interface do 
modulo. A outra vantagem e que se podem substituir os modulos independentemente uns dos 
outros. 

Houve ainda a preocupacao de que cada modulo tivesse uma interface muito bem definida 
para permitir disponibilizar de forma facil as funcoes por ele implementadas. Os processos de 
coordenacao do sistema LuCas realizam as funcoes principals do sistema. Para o realizar activam 
atraves da interface dos modulos as funcoes necessarias para satisfazer os pedidos do utilizador. 



4.2 Arquitectura do Sistema 



O sistema LuCas e composto por sete modulos e dois processos de coordenacao. Dois dos 
modulos realizam a interface entre o sistema e as varias aplicacoes externas, dois outros realizam 
as operacoes relacionadas com o lexico e a sugestao de palavras e os restantes tres modulos 
realizam as operacoes de interface com o utilizador, identificacao dos conceitos e identificacao das 
regras da poetica portuguesa. Relativamente aos processos de coordenacao, um e responsavel pela 
classificacao dos poemas [Araiijo & Mamede, 2002] e outro pela sugestao das palavras finais dos 
versos. 

A Figura 12 ilustra os modulos e os processos que compoem o sistema e as respectivas 
interligacoes entre eles. 
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MIS 



MIC 



MIR 




MEL 



MGP MID 

Figura 12 - Arquitectura do Sistema LuCas. 

Seguidamente apresenta-se um resumo de cada modulo bem como as suas respectivas 
funcoes de interface. 

Comecando pelos tres modulos que se apresentam na Figura 12 do lado esquerdo, o Modulo 
de Interface do Sistema (MIS) e responsavel pelas operacoes de interface do sistema e o Modulo 
Identificador de Conceitos (MIC) e o Modulo Identificador de Regras (MIR) sao responsaveis pela 
identificacao dos conceitos e regras da poetica portuguesa existentes nos poemas. Estes modulos 
partilham uma estrutura de dados comum, interna do sistema, onde o poema e armazenado e a 
respectiva informacao adicional resultante do pre-processamento do poema. 

Quando e realizada a classificacao dos poemas a informacao de classificacao e adicionada 
na estrutura de dados interna [Araiijo & Mamede, 2002]. Tambem a sugestao de palavras usa a 
informacao da estrutura de dados interna. 

A opcao de partilhar uma estrutura de dados pelos tres modulos, adoptando-se uma 
manipulacao do tipo quadro preto, melhora o desempenho do sistema, pois evita ter de passar 
varias vezes a mesma informacao entre os varios modulos. Por outro lado, esta utilizacao restringe 
a generalidade e independencia entre modulos, pois aumenta o acoplamento entre eles. 

O MIS realiza as funcoes de interface com o utilizador. Estas operacoes incluem editar 
poemas, guardar e ler em ficheiros os poemas editados e receber os comandos efectuados pelo 
utilizador. Os comandos aceites pelo sistema permitem validar as palavras do poema, classificar o 
poema e sugerir palavras finais dos versos. Foram incluidas no sistema algumas funcoes associadas 
a rima das palavras, que permitem a pesquisa de palavras segundo a sua rima. 
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processaPoema(Poema)- 



Este modulo tambem e responsavel pela visualizacao dos resultados de classificacao, 
visualizacao das palavras finais dos versos sugeridas pelo sistema e das palavras que rimam com 
uma determinada palavra. E responsavel ainda pela configuracao do sistema e pelas mensagens de 
ajuda que guiam o utilizador nos comandos possiveis de ser efectuados. 

Este modulo disponibiliza, na sua interface, as seguintes funcoes: 

validaPoema(Poema)- esta funcao devolve um valor binario de verdadeiro ou falso, 

indicando se o poema passado como argumento na forma de texto e 
valido ou nao; 

esta funcao realiza o pre-processamento do poema passado como 
argumento na forma de texto, decompondo-o em linhas e estrofes e 
armazenando-o numa estrutura interna que servira de base aos 
modulos seguintes; 

esta funcao converte o resultado da classificacao do poema que esta 
armazenado na estrutura interna do sistema num formato texto de 
facil percepcao e apresenta ao utilizador; 

esta funcao apresenta ao utilizador as palavras que foram sugeridas 
pelo sistema em relacao ao poema que estava a ser construido. O 
niimero de palavras visualizadas pode ser configurado no sistema; 
esta funcao apresenta ao utilizador as palavras que rimam com uma 
determinada palavra; 

esta funcao apresenta ao utilizador, para um conjunto de palavras, 
um grupo com todas as que rimam com a primeira e outro grupo com 
todas as que nao rimam. 

O MIC e responsavel por assinalar para um poema fornecido os conceitos da poetica 
portuguesa. O processamento e realizado sobre a estrutura de dados interna que contem o poema 
pre-processado e o resultado e o registo dos conceitos estruturais e de rima anteriormente descritos 
que sao adicionados na mesma estrutura interna. A informacao de identificacao de conceitos serve 
de base para depois serem aplicadas as regras de classificacao. 

Este modulo disponibiliza na sua interface a seguinte funcao: 



mostra Classificagao() - 

mostraSugestao()- 

mostraRima( ')- 
mostraRimas()- 



identificaConceitos()- 



esta funcao adiciona ao poema pre-processado a informacao dos 
conceitos da poetica portuguesa. 
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O MIR e responsavel pela implementacao das regras de classificacao dos poemas e 
acrescenta na estrutura que contem o poema a classificar, a respectiva informacao de classificacao, 
com base nas regras de classificacao anteriormente descritas, e na informacao de identificacao de 
conceitos adicionada pelo modulo anterior. Apos ser acrescentada a informacao de classificacao, e 
convertida para depois ser mostrada ao utilizador pelo modulo de interface do sistema. 

Este modulo disponibiliza na sua interface a seguinte funcao: 

classificaPoemaQ- esta funcao realiza a classificacao do poema com base na 

implementacao das regras descritas e adiciona a informacao de 
classificacao ao poema. 

Seguidamente descrevem-se os modulos: Modulo de Interface de Dados MIL e o Modulo 
Gerador de Palavras (MGP) apresentados na Figura 12 e correspondem respectivamente ao 
modulo que implementa o lexico e ao modulo responsavel pela geracao de palavras. Estes modulos 
fazem a interface entre o sistema e o repositorio de dados do sistema. O lexico inclui todas as 
palavras que sao aceites pelo sistema e o modulo gerador de palavras optimiza os acessos ao 
modulo do lexico. 

O Modulo de Interface de Dados (MID) realiza a interface entre o sistema e a base de dados 
do sistema. A base de dados e composta pelo lexico e pelos modelos de lingua. Este modulo 
baseia-se na utilizacao de um sistema de gestao de base de dados relacional, que armazena as 
palavras que sao aceites pelo sistema e armazena os modelos estatisticos de lingua usados na 
sugestao de palavras. 

Uma das vantagens de utilizacao do lexico na classificacao de poemas e a de permitir 
realizar a deteccao de erros ortograficos dos poemas, quer daqueles que se pretende classificar, 
quer dos que se encontram em construcao. Outra vantagem de utilizacao do lexico e poder utilizar 
varios lexicos alternatives consoante o contexto que se pretende analisar e consoante a utilizacao 
que se pretende fazer. Por exemplo, se se pretender classificar poemas mais antigos, entao tern de 
se acrescentar no lexico as palavras antigas. Se se pretender utilizar como ferramenta de 
construcao de poemas nas escolas para criancas, entao podera ser usado um lexico adaptado para 
esse contexto. 

Este modulo disponibiliza na sua interface as seguintes funcoes: 

existePalavra(Palavra)- esta funcao devolve um valor binario de verdadeiro ou falso caso 

exista ou nao no lexico a palavra passada por argumento; 
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existePalavras(Texto)- esta funcao devolve o conjunto de palavras do texto passado por 

argumento que nao existem no lexico; 
inserePalavra(Palavra)- esta funcao acrescenta a palavra passada por argumento no lexico; 
removePalavra(Palavra)- remove a palavra passada por argumento do lexico. 

O MGP realiza as operacoes responsaveis pela sugestao de palavras. A interaccao entre este 
modulo e o lexico e directa, por forma a optimizar o desempenho do sistema. Para realizar a 
sugestao de palavras existe a hipotese de configurar o sistema de forma a seleccionar o modo que 
melhor se adapta a sugestao pretendida. A sugestao de palavras tern em conta a parte ja escrita do 
poema e a configuracao escolhida. O seu funcionamento esta baseado numa funcao que toma em 
conta as varias hipoteses de seleccao das palavras. 

Este modulo disponibiliza na sua interface a seguinte funcao: 

proximaPalavra(n)- esta funcao sugere n palavras para completar um verso. O valor n e 

passado por argumento a funcao. 

Por ultimo, os modulos Modulo de Interface Externa Leia (MEL) e o Modulo de Interface 
Externa Gerador de Classes MEC, representados na Figura 12 a amarelo, realizam a interface com 
as aplicacoes externas. 

O MEL realiza a interface entre o sistema e a aplicacao externa Leia. Este modulo obtem a 
transcricao fonetica e a divisao silabica das palavras e disponibiliza na sua interface as seguintes 
funcoes: 

transcricaoFonetica(Palavra)- esta funcao devolve a transcricao fonetica de uma palavra 

passada por argumento (inclui a indicacao de silaba tonica); 

divisaoSildbica(Palavra)- esta funcao devolve a divisao silabica da palavra passada por 

argumento (inclui a indicacao de silaba tonica). 

O MEC realiza a interface entre o sistema e as aplicacoes externas Smorph, Pasmo e 
Susana. Este modulo gerador de classes obtem, para uma frase incompleta (sem a ultima palavra), 
um conjunto de classes possiveis para essa palavra e disponibiliza na sua interface a seguinte 
funcao: 

classesPossiveis(Frase)- esta funcao devolve um conjunto de classes possiveis para a proxima 

palavra que pode formar a frase passada por argumento. 
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A base de dados do sistema permite que o sistema funcione de forma autonoma sem aceder 
as aplicacoes externas. Foram adicionadas funcoes que permitem armazenar a informacao que e 
gerada pelas aplicacoes extemas na base de dados. 



4.3 Processos de Coordenacao 

O processo classificador de poemas (PCP) realiza a classificacao de poemas. Os modulos 
utilizados para a classificacao de poemas sao o MIS, MIC, MIR e MIL. 
O PCP realiza a classificacao de poemas em 4 etapas. 



ClassificarPoema / 



Aquisicao 
do Poema 



PoemaBemFormado / ArmazenaNaEstruturalntema 



Identifica 
Conceitos 



Apresenta 
Classificacao 




/ AdicionaRegrasClassifica^ao 



Figura 13 - Diagrama de estados do processo de classificacao. 

A Figura 13 resume, na linguagem UML, os estados do processo de classificacao. 

Na primeira etapa, o MIS e responsavel por realizar a aquisicao do poema para uma 
estrutura interna e armazenar o poema num formato que identifica as linhas do poema, destacando 
as palavras finais dos versos. Este formato simplifica a etapa de classificacao seguinte. Pode, 
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opcionalmente, ser realizada a verificacao de vocabulario do poema, utilizando as funcoes do MIL, 
para garantir que as palavras que compoem o poema existem no lexico. 

Na segunda etapa o MIC acrescenta a informacao de identificacao de conceitos. Esta 
informacao inclui a identificacao das estrofes, dos versos e das rimas. Tambem e acrescentada a 
informacao da transcricao fonetica e divisao silabica das palavras. 

Na terceira etapa o MIR tern como base a informacao de identificacao de conceitos da etapa 
anterior e realiza a classificacao do poema com base em regras que incluem a classificacao das 
estrofes, a classificacao dos versos e a classificacao da rima. 

Na quarta e ultima etapa, o MIS e responsavel por apresentar o resultado final de 
classificacao ao utilizador. 

Seguidamente e apresentado, na Figura 14, um diagrama de actividade na linguagem UML 
que corresponde ao algoritmo simplificado que realiza a aquisicao de poemas e armazena os 
conceitos estruturais do poema relativos ao verso e estrofe para permitir a posterior classificacao. 



(NiimeroEstrofes = 
NiimeroVersos = 



c 



Novo Poema 




D 



Linha <> EndOfFile 



f Pre Processamento Linha j 



Linha = Nulo 



(5 



Incrementa NiimeroEstrofes 



Processa Estrofe 
NiimeroVersos = 

i 




Linha <> Nulo 



Incrementa NiimeroVersos 



D 



Processa Verso 



T 



D 



Figura 14 - Diagrama de actividade de identificacao de versos e estrofes. 

Este algoritmo esta implementado no MIC. Comeca por iniciar as variaveis 
NiimeroEstrofes e NiimeroVersos com para depois realizar um ciclo de leitura das linhas 
do poema. Por cada linha lida diferente de nulo incrementa a variavel NiimeroVersos que indica 
o niimero de versos numa estrofe. Por cada mudanca de linha em branco no texto e incrementada a 
variavel NiimeroEstrofes que indica o niimero de estrofes total do poema e e guardado o 
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niimero de versos da estrofe. Por cada mudanca de estrofe e iniciada a variavel NumeroVersos 
comO. 

O processo preditor de palavras (PPP) realiza a predicao das palavras finais dos versos. 
Este processo utiliza todos os modulos do sistema para realizar a predicao das palavras finais dos 
versos. Podem ocorrer diferentes situacoes de poemas que originam diferentes criterios de 
predicao. O primeiro factor que condiciona a predicao das palavras esta relacionado com o facto de 
se estar a considerar ou nao uma estrutura definida de poema. 

No caso em que nao existe uma estrutura definida de poema, o criterio de seleccao baseia-se 
nos modelos estatisticos de lingua que permitem sugerir as palavras, ordenadas por ordem 
decrescente de frequencia de ocorrencia das palavras. 

Quando o utilizador nao impoe uma estrutura de poema pre-definida existem varios factores 
que sao tidos em conta para sugerir as palavras. O primeiro criterio corresponde ao niimero de 
silabas dos versos que apenas selecciona as palavras com um niimero especifico de silabas. O 
segundo criterio corresponde a disposicao estrofica da rima, que apenas selecciona as palavras com 
uma determinada rima. 

Em ambos os casos, foram realizadas experiencias utilizando as categorias gramaticais das 
palavras. A partir de uma frase incompleta sao sugeridos os tipos de palavras possiveis para a 
proxima palavra. As experiencias realizadas nao foram conclusivas, pois o niimero de classes 
sugeridas restringe pouco o niimero total de palavras nao chegando a filtrar 50% das palavras. 

A Figura 15 mostra, atraves de um diagrama de actividade descrito na linguagem UML, o 
processo de escolha do metodo de seleccao das palavras a sugerir. Existem tres formas de seleccao 
de palavras: a primeira por niimero de silabas; a segunda por rima e a terceira por frequencia de 
ocorrencia. A escolha depende da configuracao que o utilizador escolheu e depende da situacao 
encontrada no poema. 



Estrutura Nao Definida / \ 


x Estrutura Definida 




Rima Nao Definida y 


X 


\Rima Definida 
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' 




' 


Seleccao 
Por SLM 




Selec§ao por 
N° Silabas + SLM 




Seleccao por N° 
Silabas + Rima + SLM 



Legenda: 
SLM - Modelos de Linguagem Estatisticos. 



Figura 15 - Diagrama de actividade de predigao de palavras. 
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4.4 Arquitectura da Base de Dados 

Inicialmente, a base de dados era composta pelo lexico. Este lexico permite validar o 
vocabulario utilizado na realizacao dos poemas e assim ter no sistema a funcionalidade de 
corrector ortografico. Mais tarde foi tambem utilizado para guardar a informacao que se obtem a 
partir das aplicacoes externas e os modelos de lingua. 

Foi desenvolvido um conjunto de funcionalidades para permitir adaptar e complementar a 
informacao relativa as transcribes foneticas, as divisoes silabicas e as categorias das palavras que 
sao geradas pelas aplicacoes externas e acrescentar essa informacao na base de dados. Foi ainda 
criada a estrutura de dados necessaria para suportar os modelos de lingua utilizados pelo sistema 
na sugestao de palavras. 

O diagrama de classes apresentado na Figura 16, descrito na linguagem UML, mostra a 
estrutura de dados do lexico. 
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Figura 16 - Modelo de dados do lexico. 

Este modelo, como ja foi referido anteriormente, foi implementado com base num sistema 
de base de dados relacional para optimizar o acesso aos dados. 

Comecando pela classe principal, foi criada uma entidade que se designou por Palavra e 
que serve para armazenar as palavras que sao validas no sistema. Por cada palavra que e inserida 
no lexico e atribuido um codigo unico CodPalavra que a identifica univocamente e que e 
incrementado por cada nova insercao de palavra. A palavra propriamente dita e guardada no 
atributo Palavra. Por consequencia, todas as palavras que nao existirem no lexico ou sao 
fornecidas pelas aplicacoes externas ou sao adicionadas manualmente. 
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As primeiras experiencias que foram realizadas utilizaram um lexico de 10000 palavras com 
as respectivas transcricoes foneticas e divisoes silabicas. Apos algumas experiencias de 
classificacao realizadas com poemas de criancas e quadras populares de Antonio Aleixo, 
verificou-se que existiam muitas palavras que nao estavam contempladas no lexico. Foram entao 
acrescentadas as palavras que ainda nao existiam no lexico e que eram necessarias para poder 
classificar os poemas. Apos esta operacao, o lexico ficou com 11505 palavras. 

Para o caso da transcricao fonetica, existe a necessidade de armazenar varias transcricoes 
foneticas por cada palavra. Tendo em conta as 1 1505 palavras do lexico, o niimero de transcricoes 
foneticas por cada palavra varia entre 1 e 7. A Tabela 8 mostra a distribuicao das palavras por 
niimero de transcricoes foneticas. 



Descricao 


Niimero 


N.° Total de palavras 


11505 


1 Transcricao Fonetica 


10131 


2 Transcricoes Foneticas 


1214 


3 Transcricoes Foneticas 


81 


4 Transcricoes Foneticas 


75 


5 Transcricoes Foneticas 


2 


6 Transcricoes Foneticas 


1 


7 Transcricoes Foneticas 


1 



Tabela 8 - Distribuicao do numero de transcricoes foneticas. 

Foi acrescentada, no modelo de dados apresentado na Figura 16, a classe 
TranscFonetica que e responsavel pelo seu armazenamento. O atributo TranscFonetica 
permite guardar a transcricao fonetica gerada pela aplicacao externa Leia e o atributo 
TerminFonetica foi adicionado para conter a transcricao fonetica correspondente apenas a 
parte final das palavras com o objectivo de optimizar o desempenho das pesquisas por rima. 

Outro factor que contribuiu para melhorar o desempenho do sistema foi adicionar os 
atributos TranscFonetica e TerminFonetica na classe Palavra que correspondem, 
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respectivamente, a transcricao fonetica mais comum da palavra e a respectiva transcricao fonetica 
a partir da vogal acentuada. Esta optimizacao justifica-se uma vez que cada palavra tern pelo 
menos uma transcricao fonetica. Esta optimizacao evita que o sistema aceda a duas entidades 
passando a aceder a apenas a uma. 

Esta optimizacao nao invalida as duas utilizacoes, ou seja, existe a possibilidade de 
configurar se se pretende fazer a pesquisa das palavras que rimam usando apenas a transcricao 
fonetica mais comum, e desta forma usar apenas a entidade Palavra, ou usar todas as possiveis 
transcribes foneticas de cada palavra, acedendo inevitavelmente as duas entidades. 

Para se ter uma ideia do numero de palavras existente com igual terminacao fonetica foi 
realizada a contagem das palavras agrupadas por igual terminacao fonetica. 

Para um total 11505 palavras que correspondem ao dicionario acrescentado, existem 1825 
terminacoes foneticas diferentes. A Tabela 9 mostra as primeiras 10 terminacoes foneticas com 
maior numero de palavras. 



Terminacao 
da Palavra 


Transcricao 
Fonetica 


Numero 
Palavras 


ao 


6~w~ 


425 


ar 


ar 


397 


ado 


adu 


353 


or 


or 


265 


ada 


ad6 


263 


ia 


i6 


194 


ou 





185 


ados 


aduS 


184 


ente 


e~t@ 


176 


ores 


or@S 


152 









Tabela 9 - Contagem das palavras com igual terminacao fonetica. 

Como se pode concluir, a sugestao de 425 palavras, no caso mais desfavoravel, e um numero 
demasiado elevado para ser util. 

No caso da divisao silabica, e como apenas existe uma possivel divisao por cada palavra, 
acrescentaram-se os atributos DivSilabica, TerminSilabica, NumSilabas e 
NumUltSilabas que permitem armazenar, respectivamente, a divisao silabica gerada pela 
aplicacao externa Leia, a divisao silabica a partir da vogal acentuada, o numero total de silabas 
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gramaticais da palavra e o numero de silabas a partir da vogal acentuada. Estes atributos foram 
acrescentados por questoes de eficiencia na pesquisa de palavras, pois podem ser obtidos a partir 
da divisao silabica da palavra. Os atributos NumUltSilabas e TerminSilabica permitem 
determinar se a palavra e aguda, grave ou esdnixula. 

Tendo em conta as 1 1505 palavras, foram agrupadas as palavras com o mesmo numero de 
silabas e o resultado e mostrado na Tabela 10. 



Numero 
Silabas 


Numero 
Palavras 


1 


277 


2 


2543 


3 


4232 


4 


3052 


5 


1108 


6 


245 


7 


41 


8 


6 


9 


1 



Tabela 10 - Contagem das palavras com igual numero de silabas. 

As palavras em maior numero sao as de 3 silabas correspondendo, a 37% do total das 
palavras. Seguidamente sao as de 4 e 2 silabas correspondendo respectivamente a 27% e 22% do 
total de palavras. 

No caso da categoria morfologica da palavra, foi acrescentado na base de dados o atributo 
Categoria que permite armazenar a categoria da palavra. 

Para se ter uma ideia da distribuicao das palavras pelas categorias usadas inicialmente, a 
Tabela 11 mostra o numero de palavras existente em cada uma das categorias. 

Para o sistema utilizar os modelos estatisticos de lingua na sugestao de palavras, foram 
acrescentadas as seguintes classes no lexico: 

• 2Gram - para armazenar os bigramas do modelo de lingua; 

• 3Gram - para armazenar os trigramas do modelo de lingua; 

• 4Gram - para armazenar os quadrigramas do modelo de lingua. 

O resultado da classificacao de poemas e deterministico e apenas depende do facto de 
existirem ou nao as palavras que o constituem no lexico. A forma como e feita a classificacao, 
quando nao existe uma palavra no lexico, depende da posicao da palavra em falta. Se a palavra se 
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encontrar no meio de um verso, entao apenas o niimero de silabas desse verso nao estara correcto. 
Se a palavra em falta corresponder a uma palavra final do verso, entao tambem o resultado de 
classificacao da rima nao estara correcto. 

No caso da sugestao de palavras, nao existe este problema pois, se nao existir uma palavra 
no lexico, o sistema nunca podera sugerir essa palavra. Apenas a utilizacao das aplicacoes externas 
que geram as classes possiveis nao e compativel com as classes apresentadas. Foi entao necessario 
compatibilizar as classes geradas pela aplicacao smorph [Ait-Mokhtar, 1998]com as classes 
apresentadas. 



Categoria 


Descricao 


N s Palavras 


V 


verbo 


4168 


nc 


nome comum 


3565 


adj 


adjectivo 


1692 


np 


nome proprio 


360 


adv 


adverbio 


119 


cp 


contraccao pronominal 


25 


pind 


pronome indefinido 


14 


in 


interjeicao 


13 


nord 


numeral ordinal 


7 


nn 


letra ou simbolo 


6 


ppes 


pronome pessoal 


6 


con 


conjuncao 


6 


card 


numero cardinal 


5 


prep 


preposicao 


4 


prel 


pronome relativo 


4 


pdem 


pronome demonstrative 


4 


pint 


pronome interrogativo 


1 


art 


artigo 


1 


ppos 


pronome possessivo 


1 


pref 


prefixo (ex-) 





suf 


sufixo (-se) 





sem classe 


sem classe 


1504 



Tabela 1 1 - Contagem das palavras com igual categoria. 
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4.5 Exemplos de Classificagao de Poemas 

Seguidamente apresentam-se alguns exemplos de classificacao que demonstram o 
funcionamento do prototipo construido. 

Em primeiro lugar apresentam-se na Tabela 12 duas quadras populares de Antonio Aleixo e 
o respectivo resultado de classificacao. Embora as quadras sejam de 7 silabas metricas o resultado 
esta apresentado em silabas gramaticais. O resultado divide-se em duas partes. Na primeira 
apresenta-se o resumo de classificacao do poema e a classificacao das estrofes do poema e na 
segunda apresenta-se um exemplo de detalhe de classificacao dos versos da primeira estrofe. 



Quadras Populares 


Classificacao 


Eu nao tenho vistas largas, 


Classificacao do Poema 




Nem grande sabedoria, 


Resumo 




Mas dao-me as horas amargas 


linhas: 9 ; versos: 8 ; estrofes: 2 




Licoes de Filosofia. 


silabas: [8,8,8,8,0,8,9,8,8] 
rimas: [A,B,A,B, ,C,D,C,D] 




Ha luta por mil doutrinas. 


Classificacao das estrofes 




Se querem que o mundo ande, 


l a estrofe - quadra [4 versos] - rima cruzada 


Facam das mil pequeninas 


2 a estrofe - quadra [4 versos] - rima cruzada 


Uma so doutrina grande. 







Tabela 12 - Classificacao de quadras populares de Antonio Aleixo. 

A informacao de classificacao que se obtem inclui: 

• O niimero total de linhas do poema; 

• O niimero total de versos do poema; 

• O niimero total de estrofes; 

• O niimero de silabas de cada verso, sendo as linhas de separacao das estrofes 
assinaladas com o niimero 0; 

• A disposicao estrofica da rima assinalada com as letras respectivas. 
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• Por cada estrofe e ainda apresentada a classificacao quanto ao niimero de versos e 

quanto a rima. 

A Tabela 13 apresenta a segunda parte da classificacao que corresponde ao detalhe de 

classificacao dos versos da primeira estrofe. O detalhe de classificacao acrescenta a informacao 

anterior a designacao da classificacao das estrofes quanto ao niimero de silabas e quanto ao tipo da 

ultima palavra. 



Detalhe de Classificacao 


l a estrofe - quadra [4 versos] - rima cruzada 




1° Verso - octossilabo [8 silabas] - grave 


-A 


2° Verso - octossilabo [8 silabas] - grave 


-B 


3° Verso - octossilabo [8 silabas] - grave 


-A 


4° Verso - octossilabo [8 silabas] - grave 


-B 



Tabela 13 - Detalhe de classificacao da primeira quadra de Antonio Aleixo. 

O segundo exemplo e uma estrofe dos Lusiadas como mostra a Tabela 14. Embora este 
exemplo seja uma oitava-rima com versos de 10 silabas metricas, o resultado esta apresentado em 
termos de silabas gramaticais. Pode-se ver que a estrofe e composta por 8 versos, e, tal como no 
exemplo anterior, o niimero versos por estrofe sao constantes. Tambem a rima obedece a um 
formato rigido do tipo (ABABABCC). 



Estrofe dos Lusiadas 


Classificacao 


As armas e os baroes assinalados 


Classificacao do Poema 


Que da ocidental praia lusitana 


Resumo 


Por mares nunca de antes navegados 


linhas: 8 ; versos: 8 ; estrofes: 1 


Passaram ainda alem da Taprobana, 


silabas: [12,12,12,13,12,13,13,11] 


Em perigos e guerras esforcados 


rimas: [A,B,A,B,A,B,C,C] 


Mais do que prometia a forca humana, 


Classificacao por estrofes 


E entre gente remota edificaram 


l a estrofe - oitava [8 versos] - rima cruzada, 


Novo Reino, que tanto sublimaram; 


rima emparelhada. 



Tabela 14 - Classificacao de uma estrofe dos Lusiadas. 
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Destaca-se ainda a utilizacao de diferentes tipos de disposicao estrofica da rima na mesma 
estrofe, ou seja, a estrofe apresenta rima cruzada nos quatro primeiros versos e rima emparelhada 
nos dois ultimos versos. 

O detalhe de classificacao desta estrofe tambem corresponde a versos de 12 silabas em que 
se aplicou a regra geral para a sua designacao '12 silabas'. Quanto ao tipo da ultima palavra todos 
os versos apresentam uma palavra grave. 

O terceiro exemplo, descrito na Tabela 15, corresponde a duas estrofes realizadas por 
criancas em idade escolar. E de salientar o facto dos versos realizados por criancas nao 
apresentarem uma grande regularidade quer em termos de niimero de versos quer em termos de 
niimero de silabas. O mesmo ja nao se pode dizer em relacao a rima. 



Estrofes de Criancas 


Classificacao 


menina que leva a vida 


Classificacao do Poema 


sentadinha a escrever, 


Resumo 


fag a favor de ensinar, 


linhas: 8 ; versos: 7 ; estrofes: 2 


eu tambem quero aprender. 


silabas: [9,8,8,8,0,4,5,4] 




rimas: [A,B,C,B, ,C,C,C] 


Brincar, brincar 


Classificacao por estrofes 


es para brincar 


l a estrofe - quadra [4 versos] - rima cruzada 


e alegrar 


2 a estrofe - terceto [3 versos] - rima seguida 



Tabela 1 5 - Classificacao de estrofes realizadas por criancas 

Neste exemplo, pode-se ver que as estrofes nao tern o mesmo niimero de versos, sendo a 
primeira estrofe composta por quatro versos, e a segunda por tres versos. Tambem o niimero de 
silabas de cada verso varia de verso para verso. No caso da rima, tern um formato diferente em 
cada estrofe. 



4.6 Exemplos de Sugestao de Palavras 

Na sugestao de palavras existem varias hipoteses possiveis que condicionam a forma como 
sao seleccionadas as palavras. Seguidamente apresentam-se quatro situacoes diferentes para 
sugestao de palavras a partir da quadra popular de Antonio Aleixo: 
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"A Quern prende a dgua que corre 
E por si proprio enganado; 
O ribeirinho ndo morre, 
Vai correrpor outro lado." 

Supondo que se pretende sugerir a ultima palavra da quadra: 'lado', e tendo ja introduzido 
os versos anteriores, no primeiro exemplo apresenta-se uma situacao em que nao foi definida 
nenhuma estrutura de poema nem existe nenhuma quadra completa de onde se possa inferir qual a 
rima ou numero de silabas. Tambem nao sao tidas em conta as palavras escritas anteriores do 
ultimo verso. Este e o caso mais desfavoravel pois as palavras sugeridas apenas tern em conta a 
frequencia de ocorrencia e, por isso, o resultado das primeiras vinte palavras apresentado na 
Tabela 16 mais parece um conjunto de palavras que nada tern a ver com o poema. 



Primeiras 20 Palavras Sugeridas 



de, a, e, o, que, do, da, um, em, para, 

os, uma, nao, com, e, no, por, na, as, dos, ... 



Tabela 16 - Sugestao de palavras por frequencia de ocorrencia. 

Em segundo lugar apresenta-se, a contabilizacao da palavra que antecede a palavra que se 
pretende sugerir que neste caso e 'outro'. Esta situacao tem em conta os bigramas do modelo de 
lingua e seleccionara apenas aqueles que tem como primeira palavra a palavra 'outro' e ordenara o 
resultado por frequencia. Como se pode ver no resultado da Tabela 17, embora apareca em 
primeiro lugar a palavra que se pretendia, existem ainda muitas que parecem fora do contexto. 



Primeiras 20 Palavras Sugeridas 



lado, dos, a, de, que, o, para, e, dia, em, 

aspecto, e, com, no, mundo, jogador, nao, do, caso, os, ... 



Tabela 17 - Sugestao de palavras por frequencia de ocorrencia de pares de palavras. 

Em terceiro lugar apresenta-se a situacao em que apenas esta definida a rima da palavra a 
sugerir. No caso da quadra apresentada, como a rima e da forma ABAB e o segundo verso termina 
com a palavra 'enganado' entao a sugestao e composta das palavras que tem a mesma rima e 
ordenadas por frequencia de ocorrencia. A Tabela 18 mostra as primeiras dez palavras. 
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Primeiras 10 Palavras Sugeridas 



lado, passado, resultado, dado, deputado, 

avancado, machado, demasiado, obrigado, advogado, 



Tabela 18 - Sugestao de palavras por rima. 

Em quarto lugar apresenta-se a situacao em que esta definido o niimero de silabas de cada 
verso. Para o exemplo do ultimo verso da quadra apresentada, e supondo que se pretendiam versos 
com oito silabas entao o niimero de silabas anteriores a palavra que se pretende sugerir 
contabilizam 6 silabas pelo que se pretende palavras com apenas 2 silabas. A Tabela 19 mostra as 
primeiras dez palavras que satisfazem esta condicao. 



Primeiras 10 Palavras Sugeridas 



para, uma, como, pelo, tambem, 
sua, pela, esta, anos, entre, ... 



Tabela 19 - Sugestao de palavras por niimero de silabas. 

Em quinto lugar apresenta-se a situacao mais favoravel em que estao definidas a rima e o 
niimero de silabas da palavra a sugerir. Neste caso obtem-se o resultado apresentado na Tabela 20 
que contem as palavras existentes no lexico que satisfazem ambas as condicoes. 



Palavras Sugeridas 



lado, dado, fado, gado, prado, grado 



Tabela 20 - Sugestao de palavras por rima e por niimero de silabas. 

Por ultimo, apresenta-se um exemplo em que para alem das restricoes de rima e de niimero 
de silabas se usa a palavra anterior para filtrar as palavras a sugerir. Neste caso apenas sao 
sugeridas 3 palavras. 



Palavras Sugeridas 



lado, dado, fado 



Tabela 21 - Sugestao de palavras por rima e por niimero de silabas com palavra anterior. 
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5 Implement AgAo do Sistema Lucas 



5.1 Interface do Sistema 



Foi elaborada uma versao autonoma do sistema cuja interface e apresentada na Figura 17. 



Assistente de Poesia 



Q[n|® 



oed m^nm mm ss 




Configuracao 
Ajuda 



Dicionario de Rima 



Sugestao Palavras 



Vocabulario do Poema 
Classificafao do Poema 



Area 
Resultados 



Manipulafao 
de Ficheiros 






Figura 17 - Interface do Sistema LuCas. 

A interface do sistema e composta por 2 areas de texto. A area que se apresenta do lado 
esquerdo na Figura 17 corresponde a area de edicao dos poemas onde o utilizador tern disponiveis 
os comandos de edicao de um editor de texto. A area que se apresenta do lado direito corresponde 
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a area de resultados onde sao apresentados os resultados correspondentes aos comandos efectuados 
pelo utilizador. 

Os botoes que se apresentam por cima das areas de texto correspondem aos comandos 
disponiveis estando agrupados por funcionalidades. A Tabela 22 contem uma explicacao sumaria 
dos varios comandos sendo o primeiro grupo de comandos as funcoes de manipulacao de ficheiros, 
o segundo grupo as funcoes de classificacao do poema e sugestao de palavras, o terceiro grupo 
contem as funcoes de um dicionario de rima e o quarto grupo contem as funcoes de configuracao e 
ajuda. 



on p 



Novo Poema - Limpa a area de edicao do poema; 

Abrir Poema - Abre um ficheiro que contenha o poema; 

Gravar Poema - Grava o conteiido da area de edicao num ficheiro; 
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Verificar Vocabulario - Verifica se as palavras existem no lexico; 
Classificar Poema - Classifica o poema; 
Sugestao 1 - Sugere palavras usando o poema ja introduzido. 
Sugestao 2 - Sugere palavras usando a configuracao definida. 
Palavras que Rimam - Devolve as 1- N palavras que rimam. 
Agrupar por Rima - Agrupa as palavras por rima. 



>c 






Configuracoes - Permite configurar o sistema. 
Ajuda - Ecra de ajuda do sistema. 



Tabela 22 - Comandos do sistema Lucas. 



5.2 Avaliacao do Classificador de Poemas 

A avaliacao do classificador de poemas foi feita com base num conjunto de poemas 
maioritariamente realizadas por criancas em idade escolar. Foram utilizadas quadras de Antonio 
Aleixo e dos Lusiadas. O conjunto de poemas de teste e composto por cerca de duas centenas de 
estrofes de criangas, uma dezena de quadras de Antonio Aleixo e as primeiras duas estrofes dos 
Lusiadas. Foram realizados testes com cerca de 25 estrofes, das quais, a maior parte realizadas por 
criangas, e algumas de Antonio Aleixo e Camoes. 
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Estes poemas nao foram usados na criacao dos modelos de lingua, usados na sugestao de 
palavras, no entanto foi necessario verificar se todas as palavras existentes nos poemas existiam no 
dicionario de palavras. As palavras que nao existiam foram inseridas bem como a sua respectiva 
transcricao fonetica e divisao silabica. 

Apenas se nota um maior tempo de classificacao quando se usam poemas mais longos 
compostos por varias estrofes. Uma das razoes deve-se ao facto de que a verificacao de rima e feita 
para todo o poema , ou seja, quando se atribui uma letra 'A' para uma determinada rima, todos os 
versos do poema que terminarem com a mesma rima irao ter a mesma letra 'A' para se poder 
verificar qual a regularidade da rima. 

Tambem a contagem silabica dos versos do poema contribui para a degradacao do tempo de 
classificacao dos poemas, pois e necessario contabilizar a divisao silabica de todas as palavras que 
compoem o poema. 

Para se ter uma ideia dos tempos de resposta associados, foi realizada uma experiencia com 
varios poemas de diferentes dimensoes em que foram contabilizados os tempos de resposta do 
sistema. Dos varios testes realizados foram seleccionados alguns dos valores obtidos que estao 
resumidos na Tabela 23. 



N.° de Estrofes 


N.° de Palavras 


Tempo de Resposta [s] 


1 


7 


2 


2 


23 


9 


1 


54 


13 


2 


29 


13 


2 


35 


11 


3 


57 


20 


4 


77 


30 


5 


107 


44 


6 


131 


59 
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7 


150 


78 


9 


236 


156 



Tabela 23 - Tempos de Classificacao. 

Para analisar os resultados, foi feito o grafico da Figura 18 com os valores correspondentes 
aos tempos obtidos em que se colocou no eixo das abcissas o niimero de palavras e no eixo das 
ordenadas o tempo em segundos. 



Tempos de Resposta 



180 
160 

140 
120 
100 

80 
60 
40 
20 




♦♦♦ ♦ 



♦ Resposta 



50 100 150 200 250 

Niimero de palavras 



Figura 18 - Grafico dos Tempos de Resposta de Classificacao. 

Como se pode observar na Figura 18, o tempo de resposta aumenta com o aumento do 
niimero de palavras que constituem o poema. Este resultado ja era esperado uma vez que quanto 
maior for o niimero de palavras mais tempo processamento e necessario para contabilizar o niimero 
de silabas dos versos, a rima do poema e as regras de classificacao a aplicar ao poema. 

A opcao de partilhar uma estrutura de dados pelos tres modulos evita ter de andar a copiar a 
informacao pelos varios modulos o que provocaria um tempo de demora significativamente maior 
que o resultado obtido. Por outro lado esta opcao aumenta o acoplamento entre os modulos 
restringindo a generalidade e independencia destes modulos, ficando esta implementacao 
comprometida com a estrutura de dados usada. 



5.3 Avaliacao do Preditor de Palavras 

A primeira avaliacao teve como objectivo verificar qual a diferenca de utilizar os grupos de 
2, 3 e 4 palavras dos modelos de lingua descritos, para sugestao de palavras finais dos versos, sem 
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ter em conta as restricoes estruturais de niimero de silabas e rima. Como metodologia foram 
seguidos os seguintes passos: 

1) Em primeiro lugar selecciona-se a primeira estrofe e o primeiro verso; 

2) Em segundo lugar remove-se a ultima palavra do verso seleccionado; 

3) Em terceiro lugar selecciona-se, caso exista, a palavra anterior a palavra removida 
(PA). Utilizando os grupos de 2 palavras, ordenam-se por ordem decrescente de 
frequencia de ocorrencia todos os pares de palavras em que a primeira palavra do 
par seja igual a PA. Para efeitos de registo apenas se guardam as primeiras 10 
palavras do resultado; 

4) Em quarto lugar seleccionam-se, caso existam, as duas palavras anteriores a palavra 
removida (PA1 e PA2). Utilizando os grupos de 3 palavras, ordenam-se por ordem 
decrescente de frequencia de ocorrencia todos os trios de palavras em que as 
primeiras duas palavras do trio sejam iguais a PA1 e PA2. Para efeitos de registo 
apenas se guardam as primeiras 10 palavras do resultado; 

5) Em quinto lugar seleccionam-se, caso existam, as tres palavras anteriores a palavra 
removida (PA1, PA2 e PA3). Utilizando os grupos de 4 palavras, ordenam-se por 
ordem decrescente de frequencia de ocorrencia todos os grupos de quatro palavras 
em que as primeiras tres palavras do trio sejam iguais a PA1, PA2 e PA3. Para 
efeitos de registo apenas se guardam as primeiras 10 palavras do resultado; 

6) Em sexto lugar selecciona-se o proximo verso da estrofe e continua-se no passo 2. 
Este processo de teste apresenta como resultado o conjunto das palavras que, de acordo com 

o modelo, tern maior probabilidade de ocorrencia tendo em conta 1, 2 ou 3 palavras anteriores para 
a ultima palavra de cada verso que constitui a estrofe em teste. 

Os resultados obtidos foram divididos por grupos de palavras: 

• Para o grupo de 4 palavras, na maioria dos casos, nao existem conjuntos de 4 
palavras que contenha as 3 primeiras palavras anteriores a palavra a sugerir. Nos 
casos em que existem resultados, nao atingem as 10 hipoteses; 

• Para os grupos de 3 palavras, na maioria dos casos, existem solucoes com 10 
hipoteses em que cerca de metade poderiam ser palavras passiveis de ser usadas no 
verso. Existem casos em que o resultado nao atinge as 10 hipoteses e alguns em que 
nao existe nenhuma solucao; 

• Para os grupos de 2 palavras, nao foi encontrado nenhum caso sem o total das 10 
solucoes. No entanto, o niimero de palavras que seriam possiveis de ser usadas 
tambem e cerca de metade como nos grupos de 3 palavras. Neste caso, quase sempre 
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existe uma hipotese mesmo que nao seja nas 10 primeiras em que a palavra que foi 
removida esta contemplada. 
Estes resultados permitem concluir que, na sugestao de palavras, os bigramas sao os grupos 
de palavras que permitem, na maioria dos casos, obter a palavra que se pretende sugerir. 

A segunda avaliacao teve como objectivo verificar qual a diferenca, na sugestao de palavras, 
quando se entra em conta com as restricoes estruturais de niimero de silabas e de rima nos poemas 
utilizando os mesmos poemas de teste da avaliacao anterior e o mesmo processo de remocao da 
ultima palavra de cada verso. 

Como metodologia seguida foram seguidos os seguintes passos: 

1) Em primeiro lugar apenas foram consideradas as restricoes de niimero de silabas das 
palavras ordenadas por frequencia de ocorrencia; 

2) Em segundo lugar apenas foram consideradas as restricoes de rima das palavras 
ordenadas por frequencia de ocorrencia; 

3) Em terceiro lugar foram consideradas as restricoes de niimero de silabas em 
conjunto com a rima e ordenadas por frequencia de ocorrencia. 

Os resultados obtidos foram divididos em tres grupos: 

• Utilizando como restricao apenas o niimero de silabas das palavras, os resultados 
permitem concluir que nas 10 primeiras palavras sugeridas existe maior niimero de 
palavras que podiam ser usadas em substituicao da palavra removida 
comparativamente aos modelos de lingua de bigramas; 

• Utilizando como restricao apenas a rima das palavras, tambem neste caso, os 
resultados permitem concluir que nas 10 primeiras palavras sugeridas existe maior 
niimero de palavras que podiam ser usadas em substituicao da palavra removida 
comparativamente aos modelos de lingua de bigramas; 

• Utilizando como restricao o niimero de silabas das palavras em conjunto com a rima 
das palavras, o niimero total de palavras sugeridas reduz consideravelmente e a 
maior parte das palavras podia ser usada em substituicao da palavra removida. Esta 
opcao corresponde a melhor opcao para filtrar as palavras a sugerir. O linico 
inconveniente e que nem sempre existe a informacao que a permite aplicar. 

Pode-se concluir que o melhor resultado de sugestao de palavras e obtido a partir da 
conjuncao das varias abordagens seguidas para filtrar as palavras. Das varias hipoteses individuals 
aquela que obtem melhores resultados e a rima seguida do niimero de silabas das palavras. Sao as 
duas em conjunto que obtem o melhor resultado de sugestao de palavras. 
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As avaliacoes quer do modulo de classificacao quer do modulo de predicao nao confrontam 
com outras ferramentas enumeradas pois nas ferramentas descritas, nao existe nenhuma que seja 
comparavel em funcionalidade ao sistema proposto. 
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6 CONCLUSOES 



6. 1 Situacao Actual 

Para fazer um ponto de situacao do trabalho realizado, e necessario ter em conta os 
objectivos iniciais que serviram como linha orientadora para a implementacao das funcionalidades 
e para os resultados dos testes realizados. 

Globalmente, pode-se dizer que os objectivos iniciais foram atingidos, ou seja, as 
funcionalidades que se pretendiam implementar foram, em alguns casos, completamente resolvidas 
e, noutros casos, embora nao completamente automatizadas conseguiram-se, mesmo assim, realizar 
testes no sentido de validar as ideias aqui expressas. 

Conceptualmente, podem-se dividir os objectivos iniciais em dois grupos: por um lado, os 
objectivos relacionados com a classificacao de poemas e, por outro lado, os objectivos 
relacionados com a predicao das palavras. 

Comecando pelo classificador de poemas, um dos aspectos importantes a realgar e a sua 
arquitectura. Por um lado, permite uma grande flexibilidade e adaptacao, mesmo quando se 
testavam as varias abordagens, devido a sua natureza modular. Por outro lado, se se olhar para os 
testes de resposta efectuados, verifica-se que os aspectos de eficiencia tern de ser melhorados 
quando se pretendem classificar poemas mais extensos. 

O tempo de classificacao dos poemas e um factor importante a ter em conta. Mas tambem e 
um facto que, se se aumentar o poder computacional, obtem-se uma significativa melhoria no 
tempo de classificacao quando se tratam poemas de maior dimensao. 

O facto de se optar por uma organizacao em modulos, contribui para que o sistema perca 
eficiencia, contudo as vantagens que traz em termos de versatilidade de utilizacao do sistema e 
adaptacao as alteracoes necessarias para teste das varias abordagens compensam essa perda de 
desempenho. 
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O facto de nao realizar a integracao deste sistema no GallnHa [Matos et Al., 2003] nao 
permite explorar completamente as aplicacoes externas utilizadas. Durante a construcao do 
prototipo houve a necessidade de arranjar um mecanismo que permita guardar a informacao gerada 
por essas aplicacoes. Esta solucao limita os resultados obtidos e corta hipoteses de solucoes que, 
no caso de ter as aplicacoes disponiveis, nao sucede. 

A solucao encontrada com a implementacao da base de dados permite tambem guardar a 
informacao gerada pelas aplicacoes externas. Mas se por um lado esta opcao permite ter o sistema 
a funcionar autonomamente, mesmo quando nao estao disponiveis as aplicacoes externas, por 
outro lado surge o problema quando aparece uma palavra que nao existe no lexico. Se as 
aplicacoes externas estivessem disponiveis conseguiriam gerar a informacao relativa a essa palavra 
mas nao estando disponiveis no lexico, a palavra e considerada como nao valida. 

O tratamento das palavras que nao existem no lexico tern diferentes consequencias para as 
diferentes funcionalidades do sistema e dependendo da sua posicao nos versos. 

Se as palavras em falta estao no final dos versos entao pelo facto de nao ser possivel obter a 
informacao de numero de silabas e a informacao da rima destas palavras o resultado de 
classificacao e incompleto e a sugestao de palavras nao considera a rima como criterio de seleccao. 

Se as palavras em falta estao no meio dos versos entao o resultado de classificacao e 
incompleto com a informacao de classificacao relativa a rima do poema correcta. Neste caso e 
possivel considerar a rima como criterio de seleccao na sugestao de palavras. 

Na verificacao da rima entre as palavras as opcoes de implementacao mostram que a 
abordagem seguida, tendo como comparacao os dicionarios de rima em formato electronico que 
foram testados, permite realizar a verificacao da rima das palavras de uma forma fiavel, pois tem 
como base a transcricao fonetica das palavras em alternativa a terminacao em termos de letras das 
palavras. 

Tambem o facto de existirem varias formas diferentes de dizer a mesma palavra origina a 
que exista varias transcribes foneticas para a mesma palavra. Surgiu a assim a necessidade de 
arranjar um criterio de escolha para a transcricao fonetica a utilizar. 

Esta escolha tem maior impacto quando as palavras sugeridas tem poucas alternativas de 
escolha e por isso nestes casos sao contempladas as varias transcribes foneticas. Nos casos em 
que o numero de palavras sugeridas e elevado, e escolhida apenas uma das transcribes foneticas. 

Quanto a utilizacao deste sistema, houve a preocupacao de implementar uma interface 
simples que seja facil de usar por quern inicia o estudo de poesia, como e o caso das criancas em 
idade escolar. Mas para que o sistema fique vocacionado para este fim ainda muito ha a fazer em 
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termos de robustez e ecras de ajuda. Tambem a interface pode ser melhorada no sentido de tornar a 
utilizacao do sistema mais facil como e exemplo a existencia de teclas de atalho. 

Para poetas este sistema permite ajudar a escolher as regras da poetica portuguesa a colocar 
no poema e fazer para a poesia um pouco como os correctores ortograficos fazem para os textos 
em prosa, pois como ja foi referido, neste trabalho nao houve o objectivo de criar poesia 
automaticamente. 

Um aspecto que convem salientar e que, mesmo classificando diferentes tipos de poemas, 
devido as restricoes impostas nas definicoes, existem poemas que nao estao contemplados neste 
sistema, como e o caso dos poemas modernos em que as regras da poetica portuguesa nao sao 
cumpridas, dando liberdade ao poeta para uma poesia com menos imposicoes. 

Focando agora os aspectos relacionados com o preditor de palavras, os processos, por vezes 
manuais, de teste de algumas abordagens de seleccao e ordenacao das palavras a sugerir 
condicionaram os resultados obtidos. 

A predicao das palavras esta condicionada pela existencia das palavras no lexico. Isto 
significa que mesmo com ligacao as aplicacoes externas a seleccao das palavras e feita apenas 
sobre as palavras existentes no lexico. 

A utilizacao das categorias das palavras, para realizar a seleccao de palavras, nao reduz 
significativamente o niimero de palavras a sugerir. Por um lado deve-se ao facto do niimero de 
categorias possivel por cada sugestao ter muitas categorias possiveis e por outro lado devido ao 
facto das restricoes estruturais apresentarem uma grande diferenca em relacao a todas as outras 
alternativas. 

No caso dos modelos de lingua utilizados, tambem o processo manual de teste limitou muito 
os testes realizados. Talvez a utilizacao de diferentes modelos, referentes a diferentes corpus de 
texto possa alterar os resultados obtidos. 

6.2 Perspectivas Futuras 

Sao varias as portas que ficaram abertas e as solucoes que podem ser melhoradas em 
trabalhos futures. 

A disponibilizacao deste sistema no GallnHa [Matos et Al., 2003], e uma aspecto que 
permitira confirmar algumas das suposicoes aqui levantadas e melhorar os resultados obtidos 
relativamente as experiencias de teste que foram realizadas com processos manuais. 
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A interface Web disponibiliza de forma facil atraves de um browser o acesso e utilizacao 
das varias aplicacoes e respectivas funcionalidades que ai estao disponiveis. Espera-se que as 
preocupacoes de implementacao de forma modular facilitem a integracao das diferentes 
funcionalidades do sistema proposto na interface comum a todas as aplicacoes. 

Com a integracao deste trabalho espera-se ainda: 

• O acesso mais simples a informacao gerada pelas aplicacoes externas; 

• A disponibilizacao das funcionalidades do sistema para outras aplicacoes; 

Outro aspecto a salientar e que o facto de integrar o sistema na plataforma descrita, permite 
dispensar algumas das classes e das funcionalidades que apenas foram acrescentadas no lexico 
para tornar possivel o funcionamento autonomo do sistema. 

Tambem na arquitectura do sistema, uma das melhorias que podera ser implementada, e 
realizar uma linguagem de comandos que permita activar as diversas funcionalidades dos diversos 
modulos de uma forma mais flexivel e dinamica. Desta forma a interface com o sistema fica mais 
bem definida e independente da implementacao das funcoes internas de classificacao e de sugestao 
de palavras. 

A alteracao, acrescimo ou remocao de funcionalidades dos modulos obriga, neste momento, 
a uma alteracao dos processos de coordenacao para contemplar essas alteracoes. Com a 
possibilidade de activacao independentemente das funcionalidades poder-se-a tambem melhorar a 
facilidade de alteracao e configuracao do sistema. 

Para resolver os aspectos de desempenho do sistema, sera necessario construir uma versao 
diferente do sistema em que se coloca em segundo piano as questoes de flexibilidade de alteracao e 
adaptacao, e se canaliza todo o esforco para realizacao de codigo optimizado. Tambem a 
linguagem podera ser escolhida por forma a tirar melhor partido da maquina. E por fim a escolha 
de uma maquina mais rapida dara, com certeza, uma ajuda adicional. 

Relativamente ao ritmo dos versos, existem alguns aspectos que podem ser mais 
aprofundados e investigados como sao o caso dos acentos predominantes, cuja distribuicao ao 
longo do verso provoca alteracao no seu ritmo, isto e, na sua musicalidade e cadencia. Para alem 
do acento tonico da ultima silaba metrica, ha outros cuja colocacao varia com o metro ou medida 
dos versos. 

Em relacao a divisao silabica dos versos, tambem aqui se pode aprofundar um pouco mais as 
a implementacao da deteccao das silabas gramaticais para contemplar juncao entre vogais de 
palavras. 

Para se conseguir este objectivo terao de ser implementadas as regras descritas 
anteriormente que caracterizam as formas de contraccao e de dierese. 
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Os dois ultimos melhoramentos propostos permitem inclusivamente fomecer a informacao 
necessaria para que um mecanismo automatico de leitura em voz alta de poemas passe a 
contemplar a musicalidade e cadencia do poema para assim melhorar o ritmo de leitura. 

As funcionalidades associadas a rima que foram executadas no contexto deste trabalho 
poderao ser complementadas de modo a integrar no sistema todas as funcionalidades de um 
dicionario de rimas, com a vantagem da abordagem seguida ser com base nas transcribes 
foneticas das palavras. A interface do sistema tera de softer alteracoes para disponibilizar estas 
funcoes. 

Relativamente ao preditor de palavras, um dos aspectos que, sem diivida, pode melhorar, e a 
utilizacao das categorias das palavras para filtrar ainda mais as palavras a sugerir. Para se 
conseguir resultados mais precisos sera necessario usar modelos estatisticos de categorias de 
palavras ou associar factores de confianca as categorias possiveis para a proxima palavra. 

A influencia de utilizacao de diferentes modelos de lingua na sugestao de palavras e um 
aspecto que fica em aberto, uma vez que apenas foram realizadas experiencias com um modelo. 

Para se conseguir ter varios modelos de lingua sera necessario arranjar diferentes corpus de 
texto e para cada um gerar o respectivo modelo de lingua. 
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